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推荐 序 


计算 机 视觉 古 一 门 实践 性 很 剖 的 课程 ， 虽然 已 经 有 了 不 少 教科 书 ， 但 大 多 数 都 只 重 
视 其 中 的 理论 和 算法 ， 很 少 有 实践 指导 书 。 因 而 对 于 学 习 者 而 言 ， 如 来 希望 在 实践 
中 学 习 ， 往 往 需要 编写 大 量 的 程序 。 在 这 方面 ， 本 书 的 出 版 可 以 算是 一 个 有 益 的 补 
充 ， 相 信 本 书 将 成 为 计算 机 视觉 学 习 者 的 一 个 重要 参考 。 


作为 一 本 面 癌 计算 机 视觉 编程 的 书 ， 本 书 涉及 了 这 一 学 科 中 相对 成 熟 并 且 被 以 往 实 
践 验证 有 效 的 部 分 典型 算法 ， 因 而 上 共有 很 好 的 实用 性 。 例 如 第 2 章 描 述 子 部 分 选择 
了 Harris 角 点 检测 各 和 SIFT 描述 子 及 其 实现 加 以 介绍 ; 第 3 章 则 以 全 景 图 的 创建 
为 例 ， 给 出 了 RANSAC 的 实现 ; 第 9 章 图 像 分 割 中 讨论 了 Graph Cut 的 实现 等 。 这 
些 方法 大 多 数 具 有 很 好 的 通用 性 ， 因 而 为 读者 提供 了 一 种 实现 疙 例 。 


本 书 的 另 一 个 特 氮 和 是 对 介绍 的 单一 方法 ， 通 过 综合 运用 提升 学 习 者 灵活 应 用 这 些 方 
法 的 能 力 。 例 如 第 4 草 给 出 的 增强 现实 的 例子 ， 以 及 第 8 章 给 出 的 图 像 校正 的 例子 。 
这 些 例子 能 够 帮助 进一步 捉 升 学 习 者 对 前 述 方法 的 感性 认识 。 


与 早期 计算 机 视觉 领域 多 数 程序 都 是 由 C/C++ 写 就 的 情形 不 同 。 随 着 计算 机 硬件 速 
度 越 来 越 快 ， 了 研究 者 在 考虑 选择 实现 算法 语言 的 时 候 会 更 多 地 芳 虑 编写 代码 的 效率 
和 多 用 性 ， 而 不 征 像 早年 那样 把 算法 的 执行 效率 放 在 首位 。 这 直接 导致 近年 来 越 来 
越 多 的 研究 者 选择 Python 来 实现 算法 。 与 此 同时 ，Python 的 开放 性 使 不 同 领域 的 
研究 者 能 够 有 机 会 在 Python 中 加 入 他 们 需要 的 特性 ， 其 至 可 以 纳入 Python 的 标准 
库 ， 这 也 大 大 吸引 了 众多 研究 者 对 Python 的 参与 。 


本 书 的 第 三 个 特点 是 提供 了 与 OpenCv 接口 的 介绍 。 这 为 利用 OpenCV 中 的 资源 提 
供 了 方便 的 途径 。 











XI 


今天 在 计算 机 视觉 领域 ， 越 来 越 多 的 研究 者 使 用 Python 开展 研究 。 本 书 中 文 版 的 出 
版 一 方面 能 够 或 励 更 多 的 研究 者 采用 这 一 语言 ， 另 一 方面 则 为 Python 的 学 习 者 提供 
了 一 种 尝试 不 同 领域 算法 的 机 会 。 
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ER, KRAMADE, ERRAI SE Da Ah 30 2 ERRA BIZ S 
几乎 对 于 任意 可 能 的 查询 图 像 ， 搜 索引 擎 都 会 给 用 户 返 回 检索 的 图 像 。 实 际 上 ， 几 
乎 所 有 手机 和 计算 机 都 有 内 置 的 摄像 类， 所 以 在 人 们 的 设备 中 ， 有 几 G 的 图 像 和 视 
频 是 一 件 很 寻 第 鸭 事 。 

计算 机 视 沉 就 征用 计算 机 编程 ， 并 设计 算法 来 理解 在 这 些 图 像 中 有 什么 。 计 算 机 视 
RHA DAA Beas. Blas At. Eee Al air. HA er BS 


本 书 旨 在 为 计算 机 视觉 实战 提供 一 个 简单 的 切入 点 ， 让 学 生 、 研 究 者 和 爱好 者 充分 

理解 其 基础 理论 和 算法 。 本 书 中 的 编程 语言 是 Python，Python 自 带 了 很 多 可 以 免费 

获取 的 强大 而 便捷 的 图 像 处 理 、 数 学 计算 和 数据 挖掘 模 块 ， 可 以 免费 获取 。 

写作 本 书 的 时 候 ， 我 亲人 循 了 以 下 原则 。 

。 豆 励 探究 式 学 习 ， 让 读者 在 周 读 本 书 的 上 时候， 在 计算 机 上 跟着 书 中 示例 进行 练习 。 

。 推广 和 使 用 人 免费 有 是 开源 的 软件 ， 设 立 较 低 的 学 习 [ 门 槛 。 显 然 ， 我 们 选择 T Python, 

。 保持 内 容 完 整 性 和 独立 性 。 本 书 没 有 介绍 计算 机 视觉 的 全 部 内 容 ， 而 是 完整 呈现 并 
解释 所 有 代码 。 你 应 该 能 够 重 现 这 些 示 例 ， 并 可 以 直接 在 它们 之 上 构建 其 他 应 用 。 

。 内 容 妃 求 广 泛 而 韭 详细 ， 且 相对 于 理论 更 注重 辟 舞 和 油 励 。 


总 之 ， 如 采 你 对 计算 机 视觉 编程 感 兴趣 ， 和 希望 它 能 给 你 珊 来 司 发 。 


先决 条 件 和 概述 


本 书 主 要 针对 各 种 应 用 和 问题 探讨 理论 及 算法 ， 下 面 简 单 概 括 一 下 。 




















XIII 


读者 须知 

。 基本 的 编程 经 验 。 你 需要 会 使 用 编辑 器 ， 能 够 运行 脚本 ， 知 道 如 何 构建 代码 以 及 基 
本 数据 类 型 。 就 悉 Python， 或 诸如 Ruby、Matlab 等 其 他 脚本 语言 ， 这 也 会 对 你 理 
解 本 书 有 所 帮助 。 

© 数学 基础 。 如 果 你 知道 矩阵 、 癌 量 、 算 阵 乘法 ,标准 数学 函数 以 及 导数 和 梯度 等 概念 ， 
这 对 于 充分 利用 其 中 示例 非常 有 益 。 对 于 一 些 较 高 级 的 数学 例子 ,你 可 以 轻松 跳 过 。 


本 书 内 容 

。 用 Python 对 图 像 进行 实战 编程 。 

。 现实 世界 中 各 种 应 用 背后 的 计算 机 视觉 技术 。 

。 一 些 基本 算法 ， 以 及 如 何 实现 并 应 用 这 些 算法 。 

本 书 中 的 代码 示例 会 向 你 展示 物体 识别 、 基 于 内 容 的 图 像 检 索 、 图 像 搜 索 、 光 学 字 
符 识 别 、 光 流 、 跟 踪 、 三 维 重 建 、 立 体 成 像 、 增 强 现 实 、 姿 态 估 计 、 全 景 创建 、 图 
(Ral, PEER AURA SA 











1 “AE AS AY ABBR VE PD BE” Mia ReH A fA A AS Te AS = BA 
Python 模块 ， 同 时 字 关 了 很 多 贯 罕 全 书 的 基础 示例 。 
第 2 草 局 部 图 像 摘 述 子 ” 讲 解 检 测 图 像 兴 趣 点 的 方法 ， 以 及 怎样 使 用 它们 在 图 像 
间 寻 找 相 应 扣 和 区 域 。 
第 3 草 图 像 到 图 像 的 映射 ”描述 图 像 间 基本 的 变换 及 其 计算 方法 。 涵 瘟 从 图 像 扭 
曲 到 创建 全 景 图 像 的 示例 。 


第 4 章 “照相 机 模型 与 增强 现实 ”介绍 如 何 对 照相 机 建 模 、 生 成 从 三 维 空间 到 图 像 
特征 的 图 像 投 影 ， 并 佑 计 照 相机 视点 。 


第 5S 草 “ 多 视图 几何 ”讲解 如 何 对 具有 相同 场景 、 多 视图 几何 基本 面 的 图 像 进行 处 
理 ， 以 及 怎样 从 图 像 计算 三 维 重建 。 

第 6 草图 像 聚 类 ”介绍 一 些 聚 类 方法 ， 并 展示 如 何 基于 相似 性 或 内 容 对 图 像 进行 
分 组 和 组 织 。 


第 7 草 “图像 搜 索 ” 展 示 如 何 建立 有 效 的 图 像 检 索 技 术 ， 以 便 能 够 存储 图 像 的 表示 ， 
并 基于 图 像 的 视 沉 内 容 搜索 图 像 。 








XV | 前 言 


第 8 章 图 像 内 容 分 类 ” 摘 述 了 图 像 内 容 分 类 算法 ， 以 及 怎样 使 用 它们 识别 图 像 中 
的 物体 。 


EOE “图像 分 割 ” 介 绍 了 通过 聚 类 、 用 户 交互 或 图 像 模型 ， 将 图 像 分 割 成 有 意义 
区 域 的 不 同 技术 。 


第 10 章 “OpenCV” 展 示 怎 样 使 用 常用 的 OpenCV 计算 机 视觉 库 Python 接口 ， 以 及 
如 何 处 理 视频 及 摄像 头 的 输入 。 


本 书 结尾 有 参 芳 文献 。 文 献 条 目的 ?5 用 用 方 括号 表示 ， 如 [20]。 


计算 机 视 完 人 简介 

计算 机 视觉 是 一 门 对 图 像 中 信息 进行 自动 提取 的 学 科 。 信 息 的 内 容 相当 广泛 ， 包 括 
三 维 模 型 、 照 相机 位 置 、 目 标 检测 与 识别 ， 以 及 图 像 内 容 的 分 组 与 搜索 等 。 本 书 中 ， 
我 们 使 用 广义 的 计算 机 视觉 概念 ， 包 括 图 像 扭曲 、 降 噪 和 增强 现实 等 。 


计算 机 视觉 有 时 试图 模拟 人 类 视觉 ， 有 时 使 用 数据 和 统计 方法 ， 而 有 时 几何 十 解 决 问 
题 的 关键 。 在 本 书 中 ， 我 们 试图 对 此 进行 全 面 介 绍 。 


实用 计算 机 视觉 混合 了 编程 、 建 模 和 数学 技巧 ， 有 时 很 难 和 掌握 。 我 本 着 “力求 简单 ， 
又 不 影响 理解 ”的 精神 ， 有 意 用 最 少 的 理论 来 展示 这 些 内 容 。 书 中 对 于 数学 知识 的 介 
绍 是 为 了 帮助 读者 理解 算法 ， 有 些 革 〈 主 要 是 第 4 草 和 第 5E) 无 法 避免 地 涉及 很 多 
数学 理论 。 只 要 读者 愿 夸 ， 可 以 跳 过 这 些 数学 理论 ， 直 接 使 用 示例 代码 。 





Python 和 NumPy 


Python 是 一 门 编程 语言 ， 其 使 用 贯 军 了 全 书 的 示例 代码 。Python 是 一 种 简洁 明了 
的 语言 ， 对 于 输入 / 输出、 数字、 图 像 及 绘图 部 具有 民 好 的 文 持 。 这 门 语言 的 
一 些 特 性 需要 我 们 逐 贿 适应， 比如 缩 进 和 紧凑 语法 。 要 运行 代码 示例 ， 你 需要 安 
X Python 2.6 或 之 后 的 版 本 ， 因 为 只 有 这 些 版 本 才 提 供 本 书 中 用 到 的 很 多 工具 包 。 
Python 3.x 版 本 与 2.x 版 本 有 很 多 语法 差异 ， 并 且 不 兼容 2x 版 本 ， 也 不 兼容 我 们 所 
mall) LA. 





熟悉 一 些 基 本 Python 操作 会 更 容易 理解 这 些 内 容 。 对 于 Python WFE, FREI 
一 下 Mark Lutz 的 书 Learning Python[20] FU http://www.python.org/ 上 的 在 线 文档 。 


在 进行 计算 机 视觉 编程 的 时 候 ， 我 们 需要 在 癌 量 、 秆 阵 的 表示 上 进行 操作 ， 这 可 











TE 1: 这 些 例子 生成 新 的 图 像 ， 并 且 比 实际 地 从 图 像 中 提取 信息 需要 更 多 的 图 像 处 理 。 








以 通过 Python 的 NumPy 模块 处 理 ， 在 该 模块 中 ， 疝 量 和 和 矩阵 是 用 array 类 型 表示 
的 。 对 于 图 像 ， 我 们 也 将 采用 这 种 类 型 的 表示 。Travis Oliphant 的 免费 电子 书 Guide 
to NumPy[24] 是 一 本 不 错 的 NumPy 24 FH}; http://numpy.scipy.org/ 上 的 文档 对 
于 刚 接 触 NumPy 的 读者 来 说 是 一 个 很 好 的 起 点 。 对 于 结果 的 可 视 化 ， 我 们 会 用 到 
Matplotlib 模块 ， 而 对 于 更 高 级 的 数学 ， 我 们 会 用 到 SciPy 模块 。 这 些 束 是 你 会 用 
到 的 核心 模块 ， 详 见 第 1 章 。 

除了 这 些 核 心 模块 ， 对 于 某 些 特殊 目的 ， 比 如 读 取 JSON 或 XML、 载 入 并 保存 数 
据 、 生 成 图 、 图 形 编程 、Web ifn, DRaa, FHA A BRS HE fh eR, 
这 些 模块 只 有 在 特殊 的 应 用 和 演示 中 才 需 要 ， 如 果 你 对 于 某 种 应 用 不 感 兴趣 ， 可 以 
Det 

这 里 有 必要 提 一 下 IPython， 它 古 一 个 交互 式 Python 壳 ， 使 调试 和 实验 变 得 更 简单 。 
对 应 文档 及 下 载 地 址 见 http:Wipython.org/。 


排版 约定 
代码 如 下 : 

# 一 些 点 

x = [100,100, 400,400] 


y = [200,500, 200,500] 


# 绘制 这 些 点 
plot(x,y) 


本 书 中 的 字体 约定 如 下 。 
。 楷体 
用 于 定义 。 
。 等 宽 字 体 (Constant width) 
用 于 函数 、Python 模块 及 代码 示例 ， 也 用 于 控制 台 打 印 输出 。 
数学 公式 为 内 联 式 (如 f(x) = wx+D)， 或 者 单独 居中 : 
f(x) = 2 Wiki +b 





PAA Ha Be ZS PY Be BATA HASRET tS 


在 介绍 数学 知识 的 部 分 ， 标 量 使 用 小 写字 母 (s, r, 4, 9…)， 和 矩阵 (包括 图 像 数 组 7) 
使 用 大 写 加 粗 (4, V, A), eID SA (£ c,…)， 二 维 (图 像 ) 和 三 维 中 的 
尽 分 别 用 x=[x, y] 和 X[X, Y, Z] 表示 。 





使 用 代码 示例 

本 书 旨 在 帮助 你 完成 工作 。 通 前 ， 你 可 以 在 程序 或 文档 中 使 用 本 书 的 代码 。 你 不 必 
联系 我 们 请 求 许可 ， 除 非 你 要 复制 本 书 的 大 量 人 代码。 例如， 用 本 书 的 儿 段 代码 编写 
程序 不 需要 获得 许可 ， 售卖 或 再 分 发 O'Reilly 的 图 书 示例 光盘 需要 获得 许可 ， 引 用 
本 书 和 示例 代码 回答 问题 不 需要 获得 许可 ， 将 本 书 中 的 大 量 示例 代码 纳入 产品 文档 
中 需要 获得 许可 。 


我 们 对 你 在 使 用 时 声明 引用 信息 表示 感谢 ,但 不 强制 要 求 。5| 用 信息 通常 包括 标题 、 
VE. Ehk RIAD ISBN, 例如 “Programmineg Computer Vision with Python by Jan 
Erik Solem (O’Reilly). Copyright © 2012 Jan Erik Solem, 978-1-449-31654-9.” 














ANAS OR ie Fe EF A PRBS a Pls OG | a RPT, Ta AR AR A : 


permissions @ oreilly.com, 


Safari® Books Online 


Safari Books Online (www.safaribooksonline.com) 是 应 
Safa ri 需 而 变 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 
Books Online 世界 顶级 技术 和 商务 作家 的 专业 作品 。 


Safari Books Online 是 技术 专家 、 软 件 开 发 人 员 、Web 设计 师 、 商 务 人 士 和 创意 人 
士 开 展 调 研 、 解 决 问 题 、 学 习 和 认证 培训 的 第 一 手 资料 。 


对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 
的 定价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O’Reilly Media, 
Prentice Hall Professional, Addison-Wesley Professional, Microsoft Press, Sams, 
Que, Peachpit Press, Focal Press, Cisco Press, John Wiley & Sons, Syngress, 
Morgan Kaufmann, IBM Redbooks, Packt, Adobe Press, FT Press, Apress, 
Manning, New Riders, McGraw-Hill, Jones & Bartlett, Course Technology 以 及 其 他 
几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正式 出 版 之 前 的 书稿 。 要 了 解 Safari Books 
Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 


美国 : 
O’Reilly Media, Inc. 








1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 末 利 技术 咨询 (北京 ) 有 限 公司 
O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘误 
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本 音 讲 解 操作 和 处 理 图 像 的 基础 知识 ， 将 通过 大 量 示 例 介 绍 处 理 图 像 所 需 的 Python 
工具 包 ， 并 介绍 用 于 读 取 图 像 、 图 像 转 换 和 缩放 、 计 算 导 数 、 画 图 和 保存 结 末 等 的 
基本 工具 。 这 些 工 具 的 使 用 将 贯 罕 本 书 的 剩余 音 攻 。 


1.1 PIL: Python 图 像 处理 类 库 


PIL (Python Imaging Library， 图 像 处 理 类 库 ) 提供 了 通用 的 图 像 处 理 功能 ， 以 及 大 
量 有 用 的 基本 图 像 操 作 ， 比 如 图 像 缩放 、 裁 前 、 旋 转 、 颜 色 转 换 等 。PIL 是 免费 的 ， 
Fy UA http://www.pythonware.com/products/pil/ 下 载 。 


利用 PIL 中 的 函数 ， 我 们 可 以 从 大 多 数 图 像 格 式 的 文件 中 读 取 数据 ， 然 后 写 入 最 租 
见 的 图 像 格式 文件 中 。PIL 中 最 重要 的 模块 为 Image。 要 读 取 一 幅 图 像 ， 可 以 使 用 : 
from PIL import Image 
pil im = Image.open( ‘empire. jpg") 
上 述 代 码 的 返回 值 pil im 是 一 个 PIL 图 像 对 象 。 
图 像 的 颜色 转换 可 以 使 用 convert() 方法 来 实现 。 要 读 取 一 幅 图 像 ， 并 将 其 转换 成 
灰 度 图 像 ， 只 需要 加 上 convert('L')， 如 下 所 示 : 
pil im = Image.open('empire.jpg').convert('L') 


在 PIL 文档 中 有 一 些 例子 ， 参 见 http://www.pythonware.com/library/pil/handbook/ 
index.htm。 这 些 例子 有 的 输出 结 末 如 图 1-1 PAR. 














1-1; 用 PIL 处 理 图 像 的 例子 


1.1.1 转换 图 像 格式 
通过 save) 方法 ，PIL 可 以 将 图 像 保存 成 多 种 格式 的 文件 。 下 面 的 例子 从 文件 名 列 
K (filelist) 中 读 取 所 有 的 图 像 文 件 ， 并 转换 成 JPEG 格式 : 


from PIL import Image 
import os 


for intile in Tilelist: 
outfile = os.path.splitext(infile)[0] + ".jpg" 
if intitle l= outtile: 
try: 
Image.open(infile).save(outfile) 
except IOError: 
print "cannot convert", infile 


PIL AY open() 函数 用 于 创建 PIL 图 像 对 象 ，save() 方法 用 于 保存 图 像 到 具有 指定 文 
件 名 的 文件 。 除 了 后 级 变 为 “.jpg ”， 上 述 代码 的 新 文件 名 和 原文 件 名 相同 。PIL 是 
个 足够 智能 的 类 库 ， 可 以 根据 文件 扩展 名 来 判定 图 像 的 格式 。PIL 函数 会 进行 简单 
的 检查 ， 如 东 文 件 不 是 JPEG 格式 ， 会 目 动 将 其 转换 成 JPEG 格式 ， 如 采 转 换 失 败 ， 
它 会 在 控制 台 输 出 一 条 报告 失败 的 消 朋 。 


本 书 会 处 理 大 量 图 像 列 表 。 下 面 将 创建 一 个 包含 文件 夹 中 所 有 图 像 文件 的 文件 名 列 
表 。 首 先 新 建 一 个 文件 ， 命 名 为 imtools.py， 来 存储 一 些 经 常 使 用 的 图 像 操 作 ， 然 
后 将 下 面 的 函数 添加 进去 : 





import os 
def get_imlist(path): 








"0" 返回 目录 中 所 有 JPG 图 像 的 文件 名 列表 """ 


return [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.jpg') ] 


现在 ， 回 到 PIL. 


1.1.2 ”创建 缩 略 图 


使 用 PIL 可 以 很 方便 地 创建 图 像 的 缩 略 图 。thumbnail() 方法 接受 一 个 元 组 参数 (该 
参数 指定 生成 缩 略 图 的 大 小 ) ， 然 后 将 图 像 转 换 成 符合 元 组 参数 指定 大 小 的 缩 略 图 。 
例如 ， 创 建 最 长 边 为 128 像素 的 缩 略 图 ， 可 以 使 用 下 列 命令 : 


pil im.thumbnail((128,128)) 


1.1.3 复制 和 粘贴 图 像 区 域 
使 用 crop) 方法 可 以 从 一 幅 图 像 中 裁剪 指定 区 域 : 


box = (100,100,400, 400) 
region = pil im.crop(box) 


该 区 域 使 用 四 元 组 来 指定 。 四 元 组 的 坐标 依次 是 (Fe, E, 4, FP). PIL 中 指定 


坐标 系 的 左上 角 坐 标 为 《0，0)。 我 们 可 以 旋转 上 面 代码 中 获取 的 区 域 ， 然 后 使 用 
paste() 方法 将 该 区 域 放 回 去 ， 具 体 实现 如 下 : 





region = region.transpose(Image.ROTATE 180) 
pil im.paste(region,box) 


1.1.4 调整 尺寸 和 旋转 
要 调整 一 幅 图 像 的 尺寸 ， 我 们 可 以 调用 resize) 方法 。 该 方法 的 参数 是 一 个 元 组 ， 
用 来 指定 新 图 像 的 大 小 : 


out = pil im.resize((128,128)) 
要 旋转 一 幅 图 像 ， 可 以 使 用 逆 时 针 方 式 表示 旋转 角度 ， 然 后 调用 rotate() 方法 : 
out = pil im.rotate(45) 


上 述 例 子 的 输出 结果 如 图 1-1 所 示 。 最 左 端 是 原始 图 像 ， 然 后 是 灰 度 图 人像、 粘贴 有 
旋转 后 裁 瘟 图 像 的 原始 图 像 ， 最 后 是 缩 略 图 。 
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1.2 Matplotlib 


我 们 处 理 数 学 运算 、 绘 制图 表 ， 或 者 在 图 像 上 绘制 点 、 直 线 和 曲线 时 ，Matplotlib 
是 个 很 好 的 类 库 ， 有 具有 上 比 PIL 更 强大 的 绘图 功能 。Matplotlib 可 以 绘制 出 高 质量 的 
图 表 ， 就 像 本 书 中 的 许多 插图 一 样 。Matplotlib 中 的 PyLab 接口 包含 很 多 方便 用 户 
创建 图 像 的 函数 。Matplotlib 是 开源 工具 ， 可 以 从 http://matplotlib.sourceforge.net/ 
免费 下 载 。 该 链接 中 包含 非常 详尽 的 使 用 说 明和 教程 。 下 面 的 例子 展示 了 本 书 中 需 
要 使 用 的 大 部 分 函数 。 


1.2.1 绘制 图 像 、 点 和 线 

尽管 Matplotlib 可 以 绘制 出 较 好 的 条 形 图 、 饼 状 图 、 散 点 图 等 ， 但 是 对 于 大 多 数 计 
算 机 视觉 应 用 来 说 ， 仅 仅 需 要 用 到 几 个 绘图 命令 。 最 重要 的 是 ， 我 们 想 用 点 和 线 来 
表示 一 些 事物 ， 比 如 兴趣 点 、 对 应 点 以 及 检测 出 的 物体 。 下 面 是 用 几 个 点 和 一 条 线 
绘制 图 像 的 例子 : 








from PIL import Image 
from pylab import * 


# 读 取 图 像 到 数组 中 


im = array(Image.open('empire.jpg' )) 
# 绘制 图 像 
imshow( im) 


# 一 些 点 
x = [100,100,400, 400] 
y = [200,500,200, 500] 


# 使 用 红色 星 状 标记 绘制 点 
BLOtECX yy T) 


# 绘制 连接 前 两 个 点 的 线 
plot(x[:2],y[:2]) 


E 添加 标题 ， 显 示 绘 制 的 图 像 

title('Plotting: "empire.jpg"') 

show( ) 
上 面 的 代码 首先 绘制 出 原始 图 像 ， 然 后 在 x 和 y 列表 中 给 定点 的 x 坐标 和 y 坐标 上 
绘制 出 红色 星 状 标记 点 ， 最 后 在 两 个 列表 表示 的 前 两 个 点 之 间 绘 制 一 条 线段 CBR 
认为 蓝 色 )。 该 例子 的 绘制 结果 如 图 1-2 所 示 。show() 命令 首先 打开 图 形 用 户 界面 
(GUI) ， 然 后 新 建 一 个 图 像 窗 口 。 该 图 形 用 户 界 面 会 循环 阻 断 脚本 ， 然 后 暂停 ， 直 
到 最 后 一 个 图 像 窗 口 关 闭 。 在 每 个 脚本 里 ， 你 只 能 调用 一 次 show() MA, m HM 
征 在 脚本 的 结尾 调 有 用。 注意， 在 PyLab 库 中 ， 我 们 约定 图 像 的 左上 角 为 坐标 原点 。 
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Al RAY AA ps ie — “MRA AVA TO; 但 是 ， 如 琳 你 想 绘制 出 较 美观 的 图 像 ， 加 
上 下 列 命令 可 以 使 坐标 轴 不 显示 : 





axis( oTr] 


上 面 的 命令 将 绘制 出 如 图 1-2 右边 所 示 的 图 像 。 








Plotting: "empire.jpg" Plotting: "empire.jpg" 





—100 0 100 200 300 400 500 600 





1-2: Matplotlib 绘图 示例 . 带 有 坐标 轴 和 不 带 坐 标 轴 的 包含 点 和 一 条 线段 的 图 像 


在 绘 


图 时 ， 有 很 多 选项 可 以 控制 图 像 的 颜色 和 样式 。 最 有 用 的 一 些 短命 令 如 表 1-1, 


K 1-2 和 表 1-3 所 示 。 使 用 方法 见 下 面 的 例子 : 


表 1- 


plot(x,y) # 默认 为 监 色 实 线 
plot(x,y,'r*') ”# 红色 星 状 标记 
plot(x,y,'go-') # 带 有 圆圈 标记 的 绿 线 
plot(x,y,'ks:') # 带 有 正方 形 标记 的 黑色 点 线 





1: 用 pyLab 库 绘图 的 基本 颜色 格式 命令 


K < 


= 


Ee 
绿色 
红色 
青色 
TAR 
黄色 
黑色 
白色 
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表 1-2: 用 PyLab 库 绘图 的 基本 线 型 格式 信念 

线 型 
= 实 线 
虚线 
点 线 


表 1-3: 用 PyLab 库 绘图 的 基本 绘制 标记 格式 命令 


标记 
Mie 点 
con 圆圈 
Š 正方 形 
i 星 形 
十 加 号 
x 又 号 


1.2.2 ”图像 轮廓 和 直方 图 

下 面 来 看 两 个 特别 的 绘图 示例 : 图 像 的 轮廓 和 直方 图 。 绘 制图 像 的 轮廓 (或 者 其 他 
二 维 畏 数 的 等 轮廓 线 ) 在 工作 中 非 第 有 用 。 因 为 绘制 轮 廊 需要 对 每 个 坐标 [x, y] 的 
像素 值 施加 同一 个 六 值 ， 所 以 首先 需要 将 图 像 灰 度 化 : 


from PIL import Image 
from pylab import * 


# 读 取 图 像 到 数组 中 


im = array(Image.open('empire.jpg').convert('L')) 


# 新 建 一 个 图 像 
figure() 
# 不 使 用 颜色 信息 


gray() 

# 在 原点 的 左上 角 显 示 轮 廓 图 像 
contour(im, origin='image' ) 
axis('equal') 

axis('off') 


像 之 前 的 例子 一 样 ， 这 里 用 PIL 的 convert () 方法 将 图 像 转换 成 灰 度 图 像 。 


ee ee 分 布 情况 。 用 一 定数 目的 小 区 间 (bin) 来 
定 表征 像素 值 的 区 围 ， 每 个 小 区 间 会 得 到 落 入 该 小 区 同 表示 学 围 的 像素 数目 。 该 
GRIE) 图 像 的 直方 图 可 以 使 用 hist() 国 数 绘制 : 














figure() 
hist(im.flatten(),128) 
show() 








hist() 函数 的 第 二 个 参数 指定 小 区 则 的 数目 。 需 要 注意 的 是 ， 因 为 hist() 只 接受 一 
维 数组 作为 输入 ， 所 以 我 们 在 绘制 图 像 直方 图 之 前 ， 必 须 先 对 图 像 进行 压 平 处 理 。 
flatten() 方法 将 任意 数组 按照 行 优先 准则 转换 成 一 维 数组 。 图 1-3 为 等 轮廓 线 和 直 
方 图 图 像 。 
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1-3: 用 Matplotlib 绘制 图 像 等 轮廓 线 和 直方 图 


1.2.3 ”交互 式 标注 
有 时 用 户 需 要 和 革 些 应 用 交互 ， 例 如 在 一 幅 图 像 中 标记 一 些 点 ， 或 者 标注 一 些 训练 
数据 。PyLab 库 中 的 ginput() 国 数 就 可 以 实现 交互 式 标 注 。 下 面 是 一 个 简短 的 例子 : 


from PIL import Image 
from pylab import * 


im = array(Image.open('empire. jpg’ )) 
imshow(im) 

print ‘Please click 3 points’ 

x = ginput (3) 

DTANE: «you -Cliexed: x 

show() 


上 面 的 脚本 首先 绘制 一 幅 图 像 ， 然 后 等 待 用 户 在 绘图 窗口 的 图 像 区 域 点 击 三 次 。 程 
序 将 这 些 操 击 的 坐标 [x, y] 目 动 保 存在 x 列表 里 。 
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1.3  NumPy 


NumPy (http://www.scipy.org/NumPy/) 是 非常 有 名 的 Python 科学 计算 工具 包 ， 甚 中 
包含 了 大 量 有 用 的 思想 ， 比 如 数组 对 象 (用 来 表示 向 量 、 和 矩阵 、 图 像 等 ) 以 及 线性 
代数 国 数 。Numpy 中 的 数组 对 象 几乎 贯穿 用 于 本 书 的 所 有 例子 中 数组 对 象 可 以 帮助 
你 实现 数组 中 重要 的 操作 ， 比 如 矩阵 乘积 、 转 置 、 解 方程 系统 、 回 量 乘 积 和 归 一 化 ， 
这 为 图 像 变 形 、 对 变化 进行 建 模 、 图 像 分 类 、 图 像 聚 类 每 提供 了 基础 。 





NumPy 可 以 从 http://www.scipy.org/Download 免费 下 载 ， 在 线 说 明文 档 (http://docs. 
scipy.org/doc/numpy/) 包含 了 你 可 能 遇 到 的 大 多 数 问 题 的 人 答案。 关于 NumPy 的 更 多 
内 容 ， 请 参考 开 产 书籍 [24]。 








1.3.1 ”图像 数 组 表示 

在 先前 的 例子 中 ， 当 载 入 图 像 时 ， 我 们 通过 调用 array) 方法 将 图 像 转 换 成 NumPy 的 
数组 对 象 ， 但 当时 并 没有 进行 详细 介绍 。NumpPy 中 的 数组 对 象 是 多 维 有 的 ， 可 以 用 来 
表示 加 量 、 和 矩阵 和 图 像 。 一 个 数组 对 象 很 像 一 个 列表 (或 者 是 列表 的 列表 )， 但 是 数 
组 中 所 有 的 元 素 必 须 具 有 相同 的 数据 类 型 。 除 非 创建 数组 对 象 时 指定 数据 类 型 ， 否 
则 数据 类 型 会 按照 数据 的 类 型 目 动 确定 。 


对 于 图 像 数 据 ， 下 面 的 例 于 前述 了 这 一 后 : 











im = array(Image.open('empire.jpg' )) 
print im.shape, im.dtype 


im = array(Image.open('empire.jpg').convert('L'),'f') 
print im.shape, im.dtype 


控制 从 输出 结 条 如 下 所 示 : 


(800, 569, 3) uint8 

(800, 569) float32 
每 行 的 第 一 个 元 组 表示 图 像 数组 的 大 小 〈 行 、 列 、 颜 色 通 道 ) ， 紧 接着 的 字符 串 表 
示 数 组 元 素 的 数据 类 型 。 因 为 图 像 通常 被 编码 成 无 符号 八 位 整数 (uint8)， 所 以 在 
第 一 种 情况 下 ， 载 和 人 图 像 并 将 其 转换 到 数组 中 ， 数 组 的 数据 类 型 为 “uint8 。 在 第 
二 种 情况 下 ， 对 图 像 进行 灰 度 化 处 理 ， 并 且 在 创建 数组 时 使 用 额外 的 参数 “f ;该 
参数 将 数据 类 型 转换 为 序 点 型 。 关 于 更 多 数据 类 型 选项 ， 可 以 参考 图 书 [24]。 注 意 ， 
由 于 灰 度 图 像 没 有 颜色 信息 ， 所 以 在 形状 元 组 中 ， 它 只 有 两 个 数值 。 








注 1: PyLab 实际 上 包含 Numpy 的 一 些 内 容 ， 如 数组 类 型 。 这 也 是 我 们 能 够 在 1.2 节 使 用 数组 类 型 的 原因 。 
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数组 中 的 元 素 可 以 使 用 下 标 访问 。 位 于 坐标 六 je VAR ae k AD RAAT AR 
下 面 这 样 访问 : 


value = im[i,j,k] 


4 BAC UAE AA Ale]. A A AGRA eA fe H Ba Ps e] 
ZBCANDCRI. PEAR RAEI : 


im[i,:] = im[j,:] # 将 第 j 行 的 数值 赋值 给 第 i 行 

im[:,i] = 100 # 将 第 i 列 的 所 有 数值 设 为 100 

im[:100, :50].sum() # 计算 前 100 77. AY 50 列 所 有 数值 的 和 

im[ 50:100, 50:100] # 50~100 47, 50~100 列 (不 包括 第 100 行 和 第 100 列 ) 
im[i].mean() # 第 工行 所 有 数值 的 平均 值 

im[:,-1] # 最 后 一 列 

im[-2,:] (or im[-2]) # HRB 





和 注意， 示例 仅仅 使 用 一 个 下 标 访问 数组 。 如 末 仅 使 用 一 个 下 标 ， 则 该 下 标 为 行 下 标 。 
注意 ， 在 最 后 几 个 例子 中 ， 负 数 切片 表示 从 最 后 一 个 元 素 逆 加 计数 。 我 们 将 会 频 获 
地 使 用 切片 技 术 访 问 像 素 值 ， 这 也 征 一 个 很 重要 的 思想 。 


我 们 有 很 多 操作 和 方法 来 处 理 数 组 对 象 。 本 书 将 在 使 用 到 的 地 方 逐 一 介绍 。 你 可 以 
查阅 在 线 文档 或 者 开源 图 书 [24] 获取 更 多 信息 。 


1.3.2 KETJA 


将 图 像 读 入 NumPy 数组 对 象 后 ， 我 们 可 以 对 它们 执行 任意 数学 操作 。 一 个 简单 的 例 
子 就 古 图 像 的 灰 度 变换 。 SE Bf, 它 将 0..255 区 间 (或 者 0..1 区 间 ) 映射 
到 自身 〈 意 思 是 说 ， 输 出 区 间 的 范围 和 输入 区 间 的 学 围 相 同 ) 。 下 面 是 关于 灰 度 变换 
Hy — 22 fil + 


from PIL import Image 
from numpy import * 


im = array(Image.open('empire.jpg').convert('L')) 
im2 = 255 - im # 对 图 像 进行 反 相 处 理 


im3 = (100.0/255) * im + 100 # 将 图 像 像素 值 变 换 到 100...200 区 间 





im4 = 255.0 * (im/255.0)**2 # 对 图 像 像 素 值 求 平方 后 得 到 的 图 像 


第 一 个 例子 将 灰 度 图 像 进行 反 相 处 理 ， 第 二 个 例子 将 图 像 的 像素 值 变换 到 100...200 
区 间 ， 第 三 个 例子 对 图 像 使 用 二 次 函数 变换 ， 使 较 暗 的 像素 值 变 得 更 小 。 图 1-4 为 
所 使 用 的 变换 函数 图 像 。 图 1-5 征 输 出 的 图 像 结 采 。 你 可 以 使 用 下 面 的 命令 查看 图 
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像 中 的 最 小 和 最 大 像素 值 : 


print int(im.min()), int(im.max()) 





f(x)=x 
f(x)=255-x 


( 
( 
f(x)=(100.0/255.0)*x+100 
f(x)=255.0*(x/255.0)*2 





0 50 100 150 200 250 











1-4; 灰 度 变换 示例 。 三 个 例子 中 所 使 用 函数 的 图 像 ， 其 中 虚线 表示 恒 等 变 换 














1-5: 灰 度 变 换 。 对 图 像 应 用 图 1-4 中 的 函数 :f(x)=255-x 对 图 像 进行 反 相 处 理 ( 左 );f(x)=(100/255) 
x+100 对 图 像 进行 变换 (P); F(x)=255(x/255)° 对 图 像 做 二 次 变换 (5) 
如 果 试 着 对 上 面 例子 查看 最 小 值 和 最 大 值 ， 可 以 得 到 下 面 的 输出 结果 : 

2 255 

O 253 


100 200 
0 255 


array() 变换 的 相反 操作 可 以 使 用 PIL 的 fromarray() 函数 完成 : 








pil im = Image. fromarray(im) 


如 东 你 通过 一 些 操作 将 “uint8 ”数据 类 型 转换 为 其 他 数据 类 型 ， 比 如 之 前 例子 中 的 
im3 或 者 im4， 那 么 在 创建 PIL 图 像 之 前 ， 需 要 将 数据 类 型 转换 回来 : 





pil im = Image. fromarray(uint8(im) ) 


如 末 你 并 不 十 分 确定 输入 数据 的 类 型 ， 安 全 起 见 ， 应 该 先 转换 回来 。 注 站 ，NumPy 
总 征 将 数组 数据 类 型 转换 成 能 够 表示 数据 的 “了 最 低 ” 数据 类 型 。 对 浮 点 数 做 乘积 或 
除法 操作 会 使 整数 类 型 的 数组 变 成 序 氮 类 型 。 


1.3.3 图像 缩放 

NumPy 的 数组 对 象 是 我 们 处 理 图 像 和 数据 的 主要 工具 。 想 要 对 图 像 进行 缩放 处 理 没 
有 现成 简单 的 方法 。 我 们 可 以 使 用 之 前 PIL 对 图 像 对 象 转换 的 操作 ， 写 一 个 简单 的 
用 于 图 像 缩放 的 国 数 。 把 下 面 的 国 数 添加 到 imtool.py 文件 里 : 








def imresize(im,sz): 
""" 使 用 PIL 对 象 重新 定义 图 像 数 组 的 大 小 """ 


pil im = Image. fromarray(uint8(im) ) 


return array(pil_im.resize(sz)) 


我 们 将 会 在 接 下 来 的 内 容 中 使 用 这 个 函数 。 


1.3.4 ”直方 图 均衡 化 

图 像 灰 度 变换 中 一 个 韭 第 有 用 的 例子 就 是 直方 图 均衡 化 。 直 方 图 均衡 化 是 指 将 一 幅 
图 像 的 灰 度 直方 图 变 平 ， 使 变换 后 的 图 像 中 每 个 灰 度 值 的 分 布 概率 都 相同 。 在 对 图 
像 做 进一步 处 理 之 前 ， 直 方 图 均衡 化 通常 是 对 图 像 灰 度 值 进行 归 一 化 的 一 个 非常 好 
的 方法 ， 并 且 可 以 增强 图 像 的 对 比 度 。 


在 这 种 情况 下 ， 直 方 图 均衡 化 的 变换 函数 是 图 像 中 像素 值 的 累积 分 布 函 数 (cumulative 
distribution function， 人 简写 为 cdf， 将 像素 值 的 范围 映射 到 目标 范围 的 归 一 化 操作 )。 





下面 的 函数 是 直方 图 均衡 化 的 具体 实现 。 将 这 个 函数 添加 到 imtool.py 里 : 


def histeq(im,nbr bins=256): 
""" 对 一 幅 灰 度 图 像 进行 直方 图 均衡 化 """ 


# 计算 图 像 的 直方 图 

imhist,bins = histogram(im.flatten(),nbr bins,normed=True) 
cdf = imhist.cumsum() # 累积 分 布 函数 

cdf = 255 * cdf / cdf[-1] # GE 
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# 使 用 累积 分 布 函 数 的 线性 插值 ， 计 算 新 的 像素 值 
im2 = interp(im.flatten(),bins[:-1],cdf) 


return im2.reshape(im.shape), cdf 


IAPR BCA a A Ze Bx, eA ER, re BO R F ERDE Ae El. PA 
BOB E AD A ea A Be, ARH RRR TERY BY RRS A RI TE, A 
数 中 使 用 到 累积 分 布 国 数 的 最 后 一 个 元 素 〈 下 标 为 -1)， 目 的 是 将 其 归 一 化 到 0...1 
泥 围 。 你 可 以 像 下面 这 样 使 用 该 函数 : 


from PIL import Image 
from numpy import * 


im = array(Image.open('AquaTermi_lowcontrast.jpg').convert('L')) 
im2,cdf = imtools.histeq(im) 


图 1-6 和 图 1-7 A LMR AA ela. ki Tina ale By A 
AEC Z HUAN Za ARE OR, UA Be ae PEAS PT ER AR. ATLA, ED 
图 均衡 化 后 图 像 的 对 比 度 增强 了 ， 原 先 图像 灰 色 区 域 的 细 习 变 得 清晰 。 














1-6: 直方 图 均衡 化 示例 。 左 侧 为 原始 图 像 和 直 万 图 ， 中 间 图 为 灰 度 变换 函数 ， 右 侧 为 直 
万 图 均衡 化 后 的 图 像 和 相应 直方 图 





axa 
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变换 函数 





图 1-7: 直方 图 均衡 化 示例 。 左 侧 为 原始 图 像 和 直方 图 ， 中 间 图 为 灰 度 变换 函数 ， 右 侧 为 直 
万 图 均衡 化 后 的 图 像 和 相应 直方 图 


13.5 ”图像 平均 

图 像 平均 操 作 是 减少 图 像 噪声 的 一 种 简单 方式 ， 通 销 用 于 亏 术 特效 。 我 们 可 以 简单 
地 从 图 像 列表 中 计算 出 一 幅 平 均 图 像 。 假 设 所 有 的 图 像 具 有 相同 的 大 小 ， 我 们 可 以 
将 这 些 图 像 倍 单 地 相 加 ， 然 后 除 以 图 像 的 数目， 来 计算 平均 图 像 。 下 面 的 函数 可 以 
用 于 计算 平均 图 像 ， 将 其 添加 到 imtool.py XE: 


def compute average(imlist): 


""" 计算 图 像 列表 的 平均 图 像 """ 
# 打开 第 一 幅 图 像 ， 将 其 存储 在 浮 点 型 数组 中 


averageim = array(Image.open(imlist[0o]), 'f') 


for imname in imlist[1:]: 


Cry: 

averageim += array(Image.open(imname) ) 
except: 

print imname + '...skipped' 


averageim /= len(imlist) 

# 返回 uint8 类 型 的 平均 图 像 

return array(averageim, ‘uint8') 
该 函数 包括 一 些 基本 的 异 第 处 理 技巧 ， 可 以 自动 跳 过 不 能 打开 的 图 像 。 我 们 还 可 以 
使 用 mean() 函数 计算 平均 图 像 。mean() 函数 需要 将 所 有 的 图 像 堆 积 到 一 个 数组 中 ， 
也 就 是 说 ， 如 末 有 很 多 图 像 ， 该 处 理 方式 需要 占用 很 多 内 存 。 我 们 将 会 在 下 一 慷 中 
使 用 该 函数 。 
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1.3.6 图像 的 主 成 分 分 析 (PCA) 


PCA (Principal Component Analysis， 主 成 分 分 析 ) 是 一 个 非常 有 用 的 降 维 技巧 。 它 
可 以 在 使 用 尽 可 能 少 维 数 的 前 提 下 ， 尽 量 多 地 保持 训练 数据 的 信息 ， 在 此 意义 上 和 是 
一 个 最 佳 技巧 。 即 使 是 一 幅 100 x 100 像素 的 小 灰 度 图 像 ， 也 有 10 000 维 ， 可 以 看 
成 10 000 维 空 间 中 的 一 个 点 。 一 兆 像 素 的 图 像 具 有 百 万 维 。 由 于 图 像 具 有 很 高 的 维 
数 ， 在 许多 计算 机 视觉 应 用 中 ， 我 们 经 稼 使 用 降 维 操作 。PCA 产生 的 投影 矩阵 可 以 
被 视 为 将 原始 坐标 变换 到 现 有 的 坐标 系 ， 坐 标 系 中 的 各 个 坐标 按照 重要 性 递减 排列 。 


为 了 对 图 像 数 据 进 行 PCA 变换 ， 图 像 需 要 转换 成 一 维 癌 量 表 示 。 我 们 可 以 使 用 
NumPy 类 库 中 的 flatten() 方法 进行 变换 。 





将 变 平 的 图 像 堆 积 起 来 ， 我 们 可 以 得 到 一 个 矩阵 ， 和 矩阵 的 一 行 表示 一 幅 图 像 。 在 计算 
主 方向 之 前 ， 所 有 的 行 图 像 按 照 平均 图 像 进 行 了 中 心 化 。 我 们 通常 使 用 SVD (Singular 
Value Decomposition, #) {Ba f#) 方法 来 计算 主 成 分 ;但 当 和 矩阵 的 维 数 很 大 时 ， 
SVD 的 计算 非常 慢 ， 所 以 此 时 通常 不 使 用 SVD 分 解 。 下 面 就 是 PCA 操作 的 代码 : 








from PIL import Image 
from numpy import * 


def pca(X): 
Ww 主 成 分 分 析 : 
输入: 矩阵 X， 其 中 该 矩阵 中 存储 训练 数据 ， 每 一 行为 一 条 训练 数据 
返回 : 投影 矩阵 (按照 维度 的 重要 性 排序 )、 方 差 和 均值 """ 


# 获取 维 数 


num data, dim = X.shape 





# 数据 中 心 化 
mean X = X.mean(axis=0) 
X = X - mean X 


if dim>num data: 
# PCA- 使 用 紧 致 技巧 
M = dot(X,X.T) # 协 方差 矩阵 
e,EV = linalg.eigh(M) # 特征 值 和 特征 向 量 
tmp = dot(X.T,EV).T # 这 就 是 紧 致 技巧 
V = tmp[::-1] # 由 于 最 后 的 特征 同 量 是 我 们 所 需要 的 ， 所 以 需要 将 其 逆转 
S = sqrt(e)[::-1] # 由 于 特征 值 是 按照 递增 顺序 排列 的 ， 所 以 需要 将 其 逆转 
for i in range(V.shape[1]): 
Wa] ves 
else: 
# PCA- 使 用 SVD 方法 
U,S,V = linalg.svd(Xx) 
V = V[E:num data] # 仅仅 返回 前 nun data 维 的 数据 才 合 理 


# 返回 投影 矩阵 、 方 差 和 均值 


return V,S,mean X 





该 国 数 首先 通过 减 去 每 一 维 的 均值 将 数据 中 心 化 ， 然 后 计算 协 方差 矩阵 对 应 最 大 
特征 值 的 特征 同 量 ， 此 时 可 以 使 用 简明 的 技巧 或 者 SVD 分 解 。 这 里 我 们 使 用 了 
range() EARL, TARMAC RA BRA PER n, ARR BL EB OO... (n-1) 的 一 个 列 
表 。 你 也 可 以 使 用 arange() 国 数 来 返回 一 个 数组 ， 或 者 使 用 xrange() 函数 返回 一 个 
Po as 〈 可 能 会 提升 速度 ) 。 我 们 在 本 书 中 贯穿 使 用 range() 国 数 。 


如 果 数 据 个 数 小 于 向量 的 维 数 ， 我 们 不 用 SVD 分 解 ， 而 是 计算 维 数 更 小 的 协 方差 矩 
阵 XX 的 特征 向 量 。 通 过 仅 计 算 对 应 前 上 (KE 是 降 维 后 的 维 数 ) 最 大 特征 值 的 特征 癌 
量 ， 可 以 使 上 面 的 PCA 操作 更 快 。 由 于 篇 幅 所 限 ， 有 区 趣 的 读者 可 以 目 行 探索 。 盾 
血 信 的 每 行 问 量 都 是 正 交 的 ， 并 且 包 仿 了 训练 数据 方差 依次 减少 的 坐标 方 癌 。 


我 们 接 下 来 对 字体 图 像 进行 PCA 变换 。fontimages.zip 文件 包含 采用 不 同 字 体 的 字 
FF a 的 缩 略 图 。 所 有 的 2359 种 字体 可 以 免费 下 载 。 假 定 这 些 图 像 的 名 称 保存 在 列 
K imlist 中 ， 跟 之 前 的 代码 一 起 保存 传 在 pca.py 文件 中 ， 我 们 可 以 使 用 下 面 的 脚本 
计算 图 像 的 主 成 分 : 

from PIL import Image 

from numpy import * 


from pylab import * 
import pca 


im = array(Image.open(imlist[0])) # 打开 一 幅 图 像 ， 获 取 其 大 小 
m,n = im.shape[0:2] # 获取 图 像 的 大 小 
imnbr = len(imlist) # 获取 图 像 的 数目 


# GEM, RENAE FEI Raa 
immatrix = array([array(Image.open(im)).flatten() 
for im-in Amlast |e") 





# 执行 PCA 操作 
V,S,immean = pca.pca(immatrix) 


# 显示 一 些 图 像 (均值 图 像 和 前 7 个 模式 ) 
figure() 
gray() 
subplot(2,4,1) 
imshow(immean.reshape(m,n) ) 
for i in range(7): 
subplot (2,4, i+2) 
imshow(V[i].reshape(m,n) ) 


show() 
广 意 ， 图 像 需 要 从 一 维 表 示 重 新 转换 成 二 维 图 像 ， 可 以 使 用 reshape() AB. 4K 
1-8 所 示 ， 运 行 该 例子 会 在 一 个 绘图 窗口 中 显示 8 个 图 像 。 这 里 我 们 使 用 了 Pylab Æ 
的 subplot() 函数 在 一 个 窗口 中 放置 多 个 图 像 。 


TE 1: 免费 字体 图 像 库 由 Martin Solli 收集 并 上 传 (http://webstaff.itn.liu.se/~marso/)。 
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图 1-8: 平均 图 像 (ZE) 和 前 7 个 模式 〈 具 有 最 大 方差 的 方向 模式 ) 


1.3.7 使 用 pickle 模 块 


如 果 想 要 保存 一 些 结果 或 者 数据 以 方便 后 续 使 用 ，Python 中 的 pickle 模块 非常 有 
FA. pickle 模块 可 以 接受 几乎 所 有 的 Python 对 象 ， 并 且 将 其 转换 成 字符 串 表 示 ， 该 
过 程 叫做 封装 〈pickling)。 从 字符 串 表 示 中 重 构 该 对 象 ， 称 为 拆 封 (unpickling)。 
这 些 字符 串 表 示 可 以 方便 地 存储 和 传输 。 


我 们 来 看 一 个 例子 。 假 设想 要 保存 上 一 元 字体 图 像 的 平均 图 像 和 主 成 分 ， 可 以 这 样 
来 完成 : 

# 保存 均值 和 主 成 分 数据 

f = open('font pca modes.pkl', 'wb') 

pickle.dump(immean, f) 


pickle.dump(V, f) 
f.close() 


在 上 述 例子 中 ， 许 多 对 象 可 以 保存 到 同一 个 文件 中 。pickle 模块 中 有 很 多 不 同 的 协 
议 可 以 生成 .pkl 文件 ， 如 来 不 确 定 的话 ， 取 好 以 二 进 制 文件 的 形式 读 取 和 写 入 。 在 
其 他 Python 会 话 中 载 入 数据 ， 只 需要 如 下 使 用 load() 方法 : 

# 载 人 均值 和 主 成 分 数据 

f = open('font_pca_modes.pkl', 'rb') 

immean = pickle.load(f) 


V = pickle. load(f) 
f.close() 


注意 ， 载 和 对象 的 顺序 必须 和 先前 保存 的 一 样 。Python 中 有 个 用 C 语 言 写 的 优化 版 
AX, WU file cpickle 模块 ， 该 模块 和 标准 pickle RACER. KT pickle 模块 的 更 
多 内 容 ， 参 见 pickle 模块 文档 页 http://docs.python.org/library/pickle.html , 








FEA HE POR ET, FRI EA with 语句 处 理 文件 的 读 写 操作 。 这 是 Python 
2.5 引入 的 思想 ， 可 以 自动 打开 和 关闭 文件 (即使 在 文件 打开 时 发 生 错误 )。 下 面 的 
例子 使 用 with() 来 实现 保存 和 载 和 操作: 

# 打开 文件 并 保存 

with open('font_pca_modes.pkl', 'wb') as f: 


pickle.dump(immean, f) 
pickle. dump(V, f) 


和 


# 打开 文件 并 载 人 
with open('font_pca_modes.pkl', 'rb') as f: 
immean = pickle. load(f) 
V = pickle. load(f) 
上 面 的 例子 年 看 起 来 可 能 很 奇怪 ， 但 with() 确实 是 个 很 有 用 的 思想 。 如 果 你 不 喜欢 
它 ， 可 以 使 用 之 前 的 open 和 close 国 数 。 


作为 pickle 的 一 种 替代 方式 ，NumpPy 具有 读 写 文本 文件 的 简单 国 数 。 如 采 数 据 中 不 
包含 复杂 的 数据 结构 ， 比 如 在 一 幅 图 像 上 点 击 的 点 列表 ，NumPy 的 读 写 函数 会 很 有 
用 。 保 存 一 个 数组 x 到 文件 中 ， 可 以 使 用 : 





savetxt('test.txt',x, '%i' ) 


了 最 后 一 个 参数 表示 应 该 使 用 整数 格 藉 。 类 似 地 ， 读 取 可 以 使 用 : 





x = loadtxt('test.txt') 


你 可 以 从 在 线 文档 http://docs.scipy.org/doc/numpy/reference/generated/numpy.loadtxt. 
html 了 解 更 多 内 容 。 


最 后 ，NumPy 有 专门 用 于 保存 和 和 载 入 数组 的 函数 。 你 可 以 在 上 面 的 在 线 文 档 里 查看 
关于 save() 和 load() 的 更 多 内 容 。 


1.4 SciPy 


SciPy (http://scipy.org/) 是 建立 在 NumPy 基础 上 ， 用 于 数值 运算 的 开源 工具 包 
SciPy 所 供 很 多 高 效 的 操作 ， 可 以 实现 数值 积分 、 优 化 、 统 计 、 信 号 处 理 ， 以 及 对 
我 们 来 说 最 重要 的 图 像 处 理 功 能 。 接 下 来 ， 本 证 会 介绍 SciPy 中 大 量 有 用 的 模块 。 
SciPy 是 个 开源 工具 包 ， 可 以 从 http://scipy.org/Download 下 载 。 
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1.4.1 ”图像 模糊 
图 像 的 高 斯 模糊 是 非常 经 典 的 图 像 卷 积 例子 。 本 质 上 ， 图 像 模 糊 就 是 将 ( 灰 度 ) 图 
像 上 和 一 个 高 斯 核 进行 卷 积 操作 : 


L=FG, 
其 中 * 表示 卷 积 操 作 ，G, 是 标准 差 为 o 的 二 维 高 斯 核 ， 定 义 为 : 


1 —(x 45 20" 
= 5 e 
2TO 





oO 


高 斯 模糊 通常 是 其 他 图 像 处 理 操作 的 一 部 分 ， 比 如 图 像 插值 操作 、 兴 趣 点 计算 以 及 
很 多 其 他 应 用 。 


SciPy 有 用 来 做 滤波 操作 的 scipy.ndimage.filters 模块 。 该 模块 使 用 快速 一 维 分 离 
的 方式 来 计算 卷 积 。 你 可 以 像 下 面 这 样 来 使 用 它 : 
from PIL import Image 


from numpy import * 
from scipy.ndimage import filters 


im = array(Image.open('empire.jpg').convert('L')) 
im2 = filters.gaussian filter(im,5) 


上 面 guassian filter() 国 数 的 最 后 一 个 参数 表示 标准 差 。 
1-9 显示 了 随 着 o 的 增加 ， 一 幅 图 像 锌 模糊 的 程度 。o 越 大 ， 处 理 后 的 图 像 细 市 
丢失 越 多 。 如 琳 打 算 模 糊 一 幅 彩 色 图 像 ， 只 需 简 单 地 对 每 一 个 颜色 通道 进行 高 斯 
模糊 : 

im = array(Image.open('empire.jpg')) 

im2 = zeros(im.shape) 

for i in range(3): 


im2[:,:,i] = filters.gaussian filter(im[:,:,i],5) 
im2 = uint8(im2) 


在 上 面 的 脚本 中 ， 节 后 并 不 总 是 需要 将 图 像 转换 成 uint8 格式 ， 这 里 只 是 将 像素 值 
用 八 位 来 表示 。 我 们 也 可 以 使 用 : 


im2 = array(im2,'uint8') 
来 完成 转换 。 


关于 该 模块 更 多 的 内 容 以 及 不 同 参 数 的 选择 ， 请 查看 http://docs.scipy.org/doc /scipy/ 
reference/ndimage.html 上 SciPy 文档 中 的 scipy.ndimage 部 分 。 
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1-9: 使 用 scipy.ndimage. filters 模块 进行 高 斯 模糊 : (a) 原始 灰 度 图 像 ，(b) 使 用 o=2 
的 高 斯 滤波 器 ; (C) 使 用 O=95 的 局 斯 滤波 器 ; (d) 使 用 O=10 的 局 斯 滤波 器 


1.4.2 图像 导数 

整 本 书 中 可 以 看 到 ， 在 很 多 应 用 中 图 像 强 度 的 变化 情况 是 非常 重要 的 信息 。 强 度 的 
变化 可 以 用 灰 度 图 像 工 (对 于 彩色 图 像 ， 通 常 对 每 个 颜色 通道 分 别 计算 导数 ) 的 x 
和 yy 方向 导数 工 和 工 进行 描述 。 


图 像 的 梯度 向 量 为 v1 = [I 1 。 梯 度 有 两 个 重要 的 属性 ， 一 是 梯度 的 大 小 : 


VIJ= VP+} 
CA T RRR REE CHESS, E A: 





a=arctan2(I,,, I) 


描述 了 图 像 中 在 每 个 点 (像素) 上 强度 变化 最 大 的 方向 。NumpPy 中 的 arctan2() 函数 
返回 着 度 表示 的 有 符号 角度 ， 角 度 的 变化 区 间 为 -r.r 


我 们 可 以 用 离散 近似 的 方式 来 计算 图 像 的 导数 。 图 像 导 数 大 多 数 可 以 通过 卷 积 人 简单 
地 实现 : 
LID, M ILID, 


对 于 D, 和 D,， 通 第 选择 Prewitt URW aF : 


-101 = A | 
D,=|-1 0 1 和 D,=| 0 0 | 
-101 111 











或 者 Sobel 滤波 器 : 
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1 64 eo 
D,=|—2 0 2/41 D,=-| 0 0 0 
=i @ 4 [2i 








这 些 导 数 滤 波 器 可 以 使 用 scipy.ndimage.filters $E AY tr UE A BR ER EE fal PE He K 
现 ， 例如 : 
from PIL import Image 


from numpy import * 
from scipy.ndimage import filters 


im = array(Image.open('empire.jpg').convert('L')) 


# Sobel 导数 滤波 器 
imx = zeros(im.shape) 
filters.sobel(im,1, imx) 


imy = zeros(im.shape) 
filters.sobel(im,0, imy) 


magnitude = sqrt(imx**2+imy**2) 


上 面 的 脚本 使 用 Sobel 滤波 器 来 计算 x 和 yy 的 方 同 导数 ， 以 及 梯度 大 小 。sobel() K 
数 的 第 二 个 参数 表示 选择 x 或 者 y 方 同 导数 ， 第 三 个 参数 保存 输出 的 变量 。 图 1-10 
显示 了 用 Sobel 滤波 絮 计 算出 的 导数 图 像 。 在 两 个 导数 图 像 中 ， 正 导数 显示 为 亮 的 
像素 ， 负 导数 显示 为 暗 的 像素 。 灰 色 区 域 表示 导数 的 值 接近 于 零 。 














1-10: 使 用 Sobel 导数 滤波 器 计算 导数 图 像 : (a) RIGKREBE: (b) x ABE: (c) 
y 导数 图 像 ，(d) 梯度 大 小 图 像 


上 述 计算 图 像 导数 的 方法 有 一 些 缺 陷 ， 在 该 方法 中 ,滤波 副 的 尺度 需要 随 着 图 像 分 
辨 率 的 变化 而 变化 。 为 了 在 图 像 噪声 方面 更 稳健 ， 以 及 在 任意 太 度 上 计算 导数 ， 我 
APT PT LAE FA rea Sp + BU UK air : 








[=I*G,, Fl L=I*G,, 
其 中 ，G 和 Go 表示 G, 在 x 和 了 方 癌 上 的 导数 ，G。 为 标准 差 为 o 的 高 斯 国 数 。 


我 们 之 前 用 于 模糊 的 filters.gaussian filter() 国 数 可 以 接受 额外 的 参数 ， 用 来 计 
算 高 斯 导数 。 可 以 简单 地 按照 下 面 的 方式 来 处 理 : 
sigma = 5 # 标准 差 


imx = zeros(im.shape) 
filters.gaussian filter(im, (sigma,sigma), (0,1), imx) 


imy = zeros(im.shape) 
filters.gaussian filter(im, (sigma,sigma), (1,0), imy) 


TZ PRAY = PBS BT VE OT PG IP DB SS PB BOY EE os 
准 差 。 你 可 以 查看 相应 文档 了 解 详情 。 图 1-11 显示 了 不 同 尺 度 下 的 导数 图 像 和 梯度 
大 小 。 你 可 以 和 图 1-9 中 做 相同 尺度 模糊 的 图 像 做 比较 。 








Wr 
i Vi A 
f 7 no ) f 

as FAS 
(d) 

1-11; 使 用 高 斯 导数 计算 图 像 导 数 : x 导数 图 像 (E), y 导数 图 像 (中 )， 以 及 梯度 大 小 图 
像 (下) ; (a) 为 原始 灰 度 图 像 ，(b) 为 使 用 o=2 的 高 斯 导数 滤波 器 处 理 后 的 图 像 ，(c) 为 使 
用 o=5 的 高 斯 导数 滤波 器 处 理 后 的 图 像 ，(d) 为 使 用 o=10 的 高 斯 导数 滤波 器 处 理 后 的 图 像 
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1.4.3 ”形态 学 : 对 象 计数 

形态 学 〈 或 数学 形态 学 ) 是 度量 和 分 析 基 本 形状 的 图 像 处 理 方 法 的 基本 框架 与 集合 。 
形态 学 通常 用 于 处 理 二 值 图像 ， 但 是 也 能 够 用 于 灰 度 图 像 。 二 值 图 像 是 指 图 像 的 每 
个 像素 只 能 取 两 个 值 ， 通 和 党 是 0 和 1。 二 值 图 像 通常 是 ， 在 计算 物体 的 数 日 ， 或 者 
度量 其 大 小 时 ， 对 一 幅 图 像 进 行 网 值 化 后 的 结果 。 你 可 以 从 http://en.wikipedia.org/ 
wiki/Mathematical_morphology 大 体 了 解 形态 学 及 其 处 理 图 像 的 方式 。 


scipy.ndimage 中 的 morphology 模块 可 以 实现 形态 学 操作 。 你 可 以 使 用 scipy. 
ndimage 中 的 measurements 模块 来 实现 二 值 图 像 的 计数 和 度量 功能 。 下 面 通 过 一 个 简 
单 的 例子 介绍 如 何 使 用 它们 。 


考虑 在 图 1-12a 里 的 二 值 图 像 ， 计 算 该 图 像 中 的 对 象 个 数 可 以 通过 下 面 的 脚本 实现 : 
from scipy.ndimage import measurements,morphology 


E 裁 和 图像， 然后 使 用 病 值 化 操作 ， 以 保证 处 理 的 图 像 为 二 值 图像 
im = array(Image.open('houses.png').convert('L')) 
im = 1*(im<128) 


labels, nbr objects = measurements. label(im) 
print "Number of objects: -nbr objects 


上 面 的 脚本 首先 载 入 该 图 像 ， 通 过 国 值 化 方式 来 确保 该 图 像 是 二 值 图 像 。 通 过 和 1 
相 乘 ， 脚 本 将 布尔 数组 转换 成 二 进 制 表 示 。 然 后 ， 我 们 使 用 label() 函数 寻找 单个 
的 物体 ， 并 且 按 照 它们 属于 哪个 对 象 将 整数 标签 给 像素 赋值 。 图 1-12b 是 labels 数 
组 的 图 像 。 图 像 的 灰 度 值 表 示 对 象 的 标签 。 可 以 看 到 ， 在 一 些 对 象 之 间 有 一 些小 的 
和 连接。 进行 二 进 制 开 (binary open) 操作 ， 我 们 可 以 将 其 移 除 : 

# 形态 学 开 操作 更 好 地 分 离 各 个 对 象 


im open = morphology.binary_opening(im,ones((9,5)),iterations=2) 


labels open, nbr_objects open = measurements.label(im open) 
print "Number of objects:", nbr objects open 


binary_opening() 国 数 的 第 二 个 参数 指定 一 个 数组 结构 元 素 。 该 数组 表示 以 一 个 
像素 为 中 心 时 ， 使 用 哪些 相 邻 像素 。 在 这 种 情况 下 ， 我 们 在 ? 方 同 上 使 用 9 个 像 
素 〈( 上 面 4 个 像素 、 像 素 本 届 、 下 面 4 个 像素 )， 在 zx 方向 上 使 用 S 个 像素 。 你 
可 以 指定 任意 数组 为 结构 元 素 ， 数 组 中 的 非 零 元 素 决 定 使 用 哪些 相 邻 像素 。 参 数 
iterations 决定 执行 该 操作 的 次 数 。 你 可 以 尝试 使 用 不 同 的 迭代 次 数 iterations 值 ， 
看 一 下 对 象 的 数目 如 何 变化 。 你 可 以 在 图 1-12c 与 图 1-12d 中 查看 经 过 开 操 作 后 的 








TE 1: 这 个 图 像 实际 上 是 图 像 “ 分 割 ” 后 的 结 东 。 如 采 你 想 知 道 该 图 像 是 如 何 创建 的 ， 可 以 查看 9.3 -。 








入 和 
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图 像 ， 以 及 相应 的 标签 图 像 。 正 如 你 想象 的 一 样 ，binary_closing() 国 数 实现 相反 
的 操作 。 我 们 将 该 函数 和 在 morphology 和 measurements 模块 中 的 其 他 函数 的 用 法 留 
作 练 习 3。 你 可 以 从 scipy.ndimage 模块 文档 http://docs.scipy.org/doc/scipy/reference/ 
ndimage.html 中 了 解 关 于 这 些 国 数 的 更 多 知识 。 





ATT) Mt cree 
(TTT 


AALAGA aed sins hi 


na Ada AnA: 2 A AdAAhdtà: 


(a) (b) 














AG 


h À ÀALARAAGA TT 


(c) (d) 


E i2; pels 使 用 二 值 开 操作 将 对 象 分 开 ， ee (a) 为 原始 二 值 
图 像 ; Dai a 图 像 ， 其 中 屎 度 值 表 示 物 体 的 标签 ;，(c) 为 使 用 开 操 作 后 
的 二 a. ) 为 开 操作 后 图 像 的 标签 图 像 


1.4.4 一 些 有 用 的 SciPy 模 块 
SciPy 中 包含 一 些 用 于 输入 和 输出 的 实用 模块 。 下 面 介 绍 其 中 两 个 模块 ，io Fl misc. 


















1. 读 写 .mat 文 件 
如 果 你 有 一 些 数据 ， 或 者 在 网 上 下 载 到 一 些 有 趣 的 数据 集 ， 这 些 数 据 以 Matlab 








基本 的 图 像 操 作 和 处 理 | 23 


的 mat 文件 格 云 存 储 ， 那 么 可 以 使 用 scipy.io 模块 进行 恋 取 。 


data = scipy.io.loadmat('test.mat' ) 


上 面 代码 中 ，data 对 和 象 包含 一 个 字典 ， 字典 中 的 键 对 应 于 保存 在 原始 mat 文件 中 的 
变量 名 。 由 于 这 些 变 量 是 数组 格式 的 ， 因 此 可 以 很 方便 地 保存 到 .mat 文件 中 。 你 仅 
需 创 建 一 个 字典 (其 中 要 包含 你 想 要 保存 的 所 有 变量 )， 然 后 使 用 savemat() 函数 : 
data = {} 
data['x'] = x 
scipy.io.savemat('test.mat' ,data) 
因为 上 面 的 脚本 保存 的 是 数组 x， 所 以 当 读 入 到 Matlab 中 时 ， 变 量 的 名 字 仍 为 x。 
关于 scipy.io 模块 的 更 多 内 容 ， 请 参见 在 线 文 档 http://docs.scipy.org/doc/scipy/ 


reference/io.html, 


2. 以 图 像 形式 保存 数组 

因为 我 们 需要 对 图 像 进行 操作 ， 并 且 需 要 使 用 数组 对 象 来 做 运算 ， 所 以 将 数组 直接 
保存 为 图 像 文件 非常 有 用 。 本 书 中 的 很 多 图 像 都 是 这 样 的 创建 的 。 

imsave() 图 数 可 以 从 scipy.misc 模块 中 载 和 信 。 要 将 数组 im 保存 到 文件 中 ， 可 以 使 用 
下 面 的 命令 : 


from scipy.misc import imsave 
imsave('test.jpg', im) 


scipy.misc 模块 同样 包含 了 著名 的 Lena 测试 图 像 : 


lena = scipy.misc.lena() 


该 脚本 返回 一 个 512 x 512 的 灰 度 图 像 数 组 。 


15 高 级 示例 : ARAL 


我 们 通过 一 个 非常 实用 的 例子 一 一 图 像 的 去 品 一 一 来 结束 本 革 。 图 像 去 骂 是 在 去 除 
图 像 噪声 的 同时 ， 尽 可 能 地 保留 图 像 细 贡 和 结构 的 处 理 技术 。 我 们 这 里 使 用 ROF 
(Rudin-Osher-Fatemi) 去 噪 模型。 该 模型 最 早出 现在 文献 [28] F. BRERA TIN 
多 应 用 来 说 痢 非 常 重 要， 这 些 应 用 沁 围 很 三 ， 小 到 让 你 的 假期 照片 看 起 来 更 漂亮 ， 
大 到 提高 卫星 图 像 的 质量 。ROF 模型 具有 很 好 的 性 质 : 使 处 理 后 的 图 像 更 平 请 ， 同 
时 保持 图 像 边缘 和 结构 信息 。 











注 1: 所 有 Pylab 图 均 可 保存 为 多 种 图 像 格 式 ， 方 法 是 点 击 图 像 窗口 中 的 “保存 ”按钮 。 
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ROF 模型 的 数学 基础 和 处 理 技巧 非常 高 深 , 不 在 本 书 讲述 范围 之 内 。 在 讲述 如 何 基 
于 Chambolle 提出 的 算法 [5] 实现 ROF 求解 器 之 前 ， 本 书 首先 人 简要 介绍 一 下 ROF 
模型 。 





一 幅 (RE) 图 像 T 的 全 变 差 (Total Variation, TV) €E CARER ZA, EE 
续 表 示 的 情况 下 ， 全 变 差 表示 为 : 





JD) = { |VI |dx (1.1) 








在 离散 表示 的 情况 下 ， 全 变 差 表示 为 : 
JD = DVT 
其 中 ， 上 面 的 式 子 是 在 所 有 图 像 坐 标 x=[x, 上 取 和 。 
在 Chambolle 提出 的 ROF 模型 里 ,目标 函数 为 寻找 降 品 后 的 图 像 VU， 使 下 式 最 小 : 
min||T- UI|’+247(0), 


RAAI- Ul 是 去 噪 后 图 像 VU 和 原始 图 像 了 产 异 的 度量 。 也 就 古 说 ， 本 质 上 该 
模型 使 去 品 后 的 图 像 像 素 值 “平坦 ”变化 ， 但 是 在 图 像 区 域 的 边 绿 上 ， 人 允许 去 噪 后 
的 图 像 像素 值 “ 跳 跃 ” 变 化 。 


按照 论文 [5] 中 的 算法 ， 我 们 可 以 按照 下 面 的 代码 实现 ROF 模型 去 噪 








from numpy import * 


def denoise(im,U_ init, tolerance=0.1,tau=0.125,tv_weight=100): 
""" 使 用 A. Chambolle (2005) 在 公式 (11) 中 的 计算 步骤 实现 Rudin-Osher-Fatemi (ROF) 去 噪 模型 


输入 : 含有 噪声 的 输入 图 像 〈 灰 度 图 像 )、 的 初始 值 、TV 正则 项 权 值 、 步 长 、 停 业 条 件 
输出 :去 噪 和 去 除 纹理 后 的 图 像 、 纹 理 残 留 """ 

m,n = im.shape # 噪声 图 像 的 大 小 

# Maat 

U = U init 

Px = im # 对 偶 域 的 x 分 量 

Py = im # 对 偶 域 的 y 分 量 


error = 1 


while (error > tolerance): 
Uold = U 
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# 原始 变量 的 梯度 
GradUx = roll(U,-1,axis=1)-U # 变量 U 梯度 的 x 分 量 
GradUy = roll(U,-1,axis=0)-U # 变量 U 梯度 的 y 分 量 





# 更 新 对 偶 变 量 

PxNew = Px + (tau/tv_weight )*GradUx 

PyNew = Py + (tau/tv_weight )*GradUy 

NormNew = maximum(1, sqrt (PxNew**2+PyNew**2 ) ) 
Px = PxNew/NormNew # 更 新 X 分量 
Py = PyNew/NormNew # 更 新 y 分 量 
# 更 新 原始 变量 

RxPx = roll(Px,1,axis=1) # 对 x 分 量 进行 向 右 x 轴 平 移 
RyPy = roll(Py,1,axis=0) # 对 y 分 量 进行 向 右 y 轴 平 移 


DivP = (Px-RxPx)+(Py-RyPy) # 对 偶 域 的 散 度 
U = im + tv weight*DivP # 更 新 原始 变量 


# 更 新 误差 
error = linalg.norm(U-Uold)/sqrt(n*m) ; 


return U,im-U # 去 噪 后 的 图 像 和 纹理 残余 


在 这 个 例子 中 ， oe ee 顾名思义 ， 在 一 个 坐标 轴 上 ， 它 循环 “ 滚 
动 ”数组 中 的 元 素 值 。 该 国 数 可 以 非 稼 方便 地 计算 邻 域 元 和 素 的 差异 ， 比 如 这 里 的 
导数 。 我 们 还 使 用 了 te norm() EIA, AEB RY LA eae PAS BZA Al (这 个 例子 
F Æ tE R RHEE UF Uold) 的 差异 。 我 们 将 这 个 denoise() 函数 保存 到 rof.py X 
件 中 。 


下 面 使 用 一 个 合成 的 噪声 图 像 示例 来 说 明 如 何 使 用 该 函数 : 


from numpy import * 

from numpy import random 

from scipy.ndimage import filters 
import rof 


# 使 用 噪声 创建 合成 图 像 

im = zeros((500,500) ) 

im[100:400,100:400] = 128 

im[200:300,200:300] = 255 

im = im + 30*random.standard_ normal( (500,500) ) 


U,T = rof.denoise(im, im) 
G = filters.gaussian filter(im, 10) 


# 保存 生成 结 采 

from scipy.misc import imsave 
imsave('synth_rof.pdf' ,U) 
imsave('synth_ gaussian. pdf" ,G) 








原始 图 像 和 图 像 的 去 噪 结 采 如 图 1-13 所 示 。 正 如 你 所 看 到 的 ，ROF 算法 去 噪 后 的 
图 像 很 好 地 保留 了 图 像 的 边 绿 信息 。 








(a) (b) (c) 


1-13: 使 用 ROF 模型 对 合成 图 像 去 品 : (a) 为 原始 噪声 图 像 ，(b) 为 经 过 高 斯 模糊 的 图 像 
(o=10) ; (c) 为 经 过 ROF 模型 去 噪 后 的 图 像 


下 面 看 一 下 在 实际 图 像 中 使 用 ROP PAYS ER OCR 





from PIL import Image 
from pylab import * 
import rof 


im = array(Image.open('empire.jpg').convert('L')) 
U,T = rof.denoise(im, im) 


figure() 
gray() 
imshow(U) 
axis('equal') 
axis('off') 
show() 


经 过 ROF 去 噪 后 的 图 像 如 图 1-14c 所 示 。 为 了 方便 比较 ， 该 图 中 同样 显示 了 模糊 后 
的 图 像 。 可 以 看 到 ，ROF 去 噪 后 的 图 像 保 留 了 边缘 和 图 像 的 结构 信息 ， 同 时 模糊 了 


Opt —— 9 


AFT g 
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1-14; 使 用 ROF 模型 对 灰 度 图 像 去 噪 : (a) 为 原始 噪声 图 像 ，(b) 为 经 过 高 斯 模糊 的 图 
R (0=5) ; (c) 为 经 过 ROF 模型 去 噪 后 的 图 像 


练习 


(1) 如 图 1-9 所 示 ， 将 一 幅 图 像 进 行 高 斯 模糊 处 理 。 随 着 o 的 增加 ， 绘 制 出 图 像 轮 万。 
在 你 绘制 出 的 图 中 ， 图 像 的 轮 慷 有 何 变 化 ?你 能 解释 为 什么 会 发 生 这 些 变 化 吗 ? 
(2) 通过 将 图 像 模糊 化 ， 然 后 从 原始 图 像 中 减 去 模糊 图 像 ， 来 实现 反 锐 化 图 像 掩 模 操 
VE (http://en.wikipedia.org/wiki/Unsharp_masking)。 反 锐 化 图 像 掩 模 操 作 可 以 实 
现 图 像 锐 化 效果 。 试 在 彩色 和 灰 度 图 像 上 使 用 反 锐 化 图 像 掩 模 操 作 ， 观 罕 该 操作 
的 效果 。 

(3) 除了 直方 图 均衡 化 ， 商 图 像 是 另 一 种 图 像 归 一 化 的 方法 。 商 图 像 可 以 通过 除 以 模 
糊 后 的 图 像 IC* G) 获得 。 尝 试 使 用 该 方法 ， 并 使 用 一 些 样本 图 像 进 行 验 证 

(4) 使 用 图 像 梯度 ， 编 写 一 个 在 图 像 中 获得 简单 物体 (例如 ， 白色 背景 中 的 正方 形 ) 
轮廓 的 函数 。 

(5) 使 用 梯度 方 回 和 大 小 检测 图 像 中 的 线段 。 估 计 线 段 的 长 度 以 及 线段 的 参数 ， 并 在 
原始 图 像 中 重新 绘制 该 线段 。 

(6) 使 用 label() 函数 处 理 二 值 化 图 像 ， 并 使 用 直方 图 和 标签 图 像 绘 制图 像 中 物体 的 
DM 

(7) 使 用 形态 学 操作 处 理 病 值 化 图 像 。 在 发 现 一 些 参 数 能 够 产生 好 的 结果 后 ， 使 用 
morphology 模块 里 面 的 center of mass() 函数 寻找 每 个 物体 的 中 心 坐标 ， 将 其 在 
图 像 中 绘制 出 来 。 
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> 了 中 一 ro 
代码 示例 约定 
从 第 2 章 起 ， 我 们 假定 PIL、NumPy 和 Matplotlib 都 包括 在 你 所 创建 的 每 个 文件 和 每 
A To TH I 





from PIL import Image 
from numpy import * 
from pylab import * 


这 种 约定 使 得 示例 代码 更 清晰 ， 同 时 也 便于 读者 理解 。 除 此 之 外 ， 我 们 使 用 SciPy 
模块 时 ， 将 会 在 代码 示例 中 显 式 声明 。 
一 些 纯化 论 者 会 反对 这 种 将 全 体 模块 导入 的 方式 ， 坚 持 如 下 使 用 方式 : 


import numpy as np 

import matplotlib.pyplot as plt 
这 种 方式 能 够 保持 命名 空间 (知道 每 个 函数 从 哪儿 来 )。 因 为 我 们 不 需要 PyLab 中 的 
NumPy 部 分 ， 所 以 该 例子 只 从 Matplotlib PSA pyplot 部 分 。 纯 化 论 者 和 经 验 丰 富 
的 程序 员 们 知道 这 些 区 别 ， 他 们 能 够 选择 目 己 喜欢 的 方式 。 但 征 ， 为 了 使 本 书 的 内 
容 和 例子 更 容易 被 读者 接受 ， 我 们 不 打算 这 样 做 。 


请 读者 注音 。 
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第 2 章 


局 部 图 像 描述 子 





本 草 旨 在 寻找 图 像 间 的 对 应 点 和 对 应 区 域 。 本 章 将 介绍 用 于 图 像 匹配 的 两 种 局 部 摘 
述 子 算法 。 本 书 的 很 多 内 容 中 都 会 用 到 这 些 局 部 特征 ， 它 们 在 很 多 应 用 中 都 有 重要 
作用 ， 比 如 创建 全 景 图 、 增 强 现实 技术 以 及 计算 图 像 的 三 维 重 建 。 


2.1 Harris 角 点 检测 器 


Harris 角 点 检测 算法 〈 也 称 Harris & Stephens ARMS) 是 一 个 极为 简单 的 角 点 
检测 算法 。 该 算法 的 主要 思想 是 ， 如 有 果 像 素 周 围 显示 存在 多 于 一 个 方 同 的 边 ， 我 们 
认为 该 点 为 兴趣 点 。 该 点 就 称 为 角 点 。 


我 们 把 图 像 域 中 点 x 上 的 对 称 半 正定 第 阵 Mj=M, (x) 定义 为 : 





M,=VIVI = : 


y 


lu L] Sea (2.1) 





I LI, 
ld, 2 


其 中 VY7 Ay he eT, M PRE (我 们 已 经 在 第 1 草 定 义 了 图 像 的 导数 和 梯 
度 )。 由 于 该 定义 ，M, 的 秩 为 1， 特征 值 为 1=|VI| 和 ?=0。 现 在 对 于 图 像 的 每 一 个 
像素 ， 我 们 可 以 计算 出 该 矩阵 。 


选择 权重 矩阵 所 ( 通 第 为 高 斯 滤波 如 Go) ， 我 们 可 以 得 到 卷 积 : 


M= W * M, (22) 
该 卷 积 的 目的 是 得 到 M, 在 周围 像素 上 的 局 部 平均 。 计 算出 的 矩阵 M, A RA Harris 
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矩阵 。 歼 的 帘 度 决定 了 在 像素 x 周围 的 感 兴趣 区 域 。 像 这 样 在 区 域 附 近 对 矩阵 和 y， 
取 平 均 的 原因 是 ， 特 征 值 会 依赖 于 局 部 图 像 特 性 而 变化 。 如 末 图 像 的 梯度 在 该 区 域 
变化 ， 那 么 ,的 第 二 个 特征 值 将 不 再 为 0。 如 琳 图 像 的 梯度 没有 变化 ， 和 ,的 特征 
值 也 不 会 变化 。 


取决 于 该 区 域 YI 的 值 ，Harris ÆRE 好 的 特征 值 有 三 种 情况 : 


。 WR A, FLA, 都 是 很 大 的 正 数 ， 则 该 x AAAA, 

© MAA RK, 和 = 0， 则 该 区 域内 存在 一 个 边 ， 该 区 域内 的 平均 M, 的 特征 值 不 
会 变化 大 大 ， 

。 WR A =A. ~0, KA AZ. 





在 不 需要 实际 计算 特征 值 的 情况 下 ， 为 了 把 重要 的 情况 和 其 他 情况 分 开 ，Harris 和 
Stephens 在 文献 [12] 中 引入 了 指示 函数 : 





det(M 1) — K trace (M7? 
Ay SABRC A ac, RANA AY EF PR : 


det (M:) 
trace (M 1)’ 
(EATEN A o 


下 面 我 们 写 出 Harris 角 点 检测 程序 。 像 1.4.2 ITAA AE, TAARA, RI] 
需要 使 用 scipy.ndimage.filters 模块 中 的 高 斯 导数 滤波 副 来 计算 导数 。 使 用 高 斯 渡 
波 如 的 道理 同样 是 ， 我 们 需要 在 角 扣 检测 过 程 中 抑制 电 声 强度 。 


首先 ， 将 角 点 啊 应 函数 添加 到 harris.py 文件 中 ,该 久 数 使 用 高 斯 导数 实现 。 同 样 
地 ， 参 数 o 定义 了 使 用 的 高 斯 滤波 如 的 尺度 大 小 。 你 也 可 以 修改 这 个 汕 数 ， 对 x 和 
y 方 同上 不 同 的 尺度 参数 ， 以 及 尝试 平均 操作 中 的 不 同 尺 度 ， 来 计算 Harris FER, 


from scipy.ndimage import filters 
def compute harris response(im,sigma=3): 


"在 一 幅 灰 度 图 像 中 ， 对 每 个 像素 计算 Harris 角 点 检测 器 响应 函数 """ 


# 计算 导数 

imx = zeros(im.shape) 

filters.gaussian filter(im, (sigma,sigma), (0,1), imx) 
imy = zeros(im.shape) 

filters.gaussian filter(im, (sigma,sigma), (1,0), imy) 





# 计算 Harris 矩阵 的 分 量 

Wxx = filters.gaussian filter(imx*imx,sigma) 
Wxy = filters.gaussian filter(imx*imy,sigma) 
Wyy = filters.gaussian filter(imy*imy,sigma) 


# 计算 特征 值 和 迹 
Wdet = Wxx*Wyy - Wxy**2 
Wtr = Wxx + Wyy 


return Wdet / Wtr 


上 面 的 国 数 会 返回 像素 值 为 Harris 响应 函数 值 的 一 幅 图 像 。 现 在 ， 我 们 需要 从 这 幅 
图 像 中 挑选 出 需要 的 信息 。 然 后 ， 选 取 像 素 值 高 于 羡 值 的 所 有 图 像 点 ， 再 加 上 额外 
的 限制 ， 即 角 点 之 则 的 间隔 必须 大 于 设 定 的 最 小 距离 。 这 种 方法 会 产生 很 好 的 角 点 
检测 结 末 。 为 了 实现 该 算法 ， 我 们 获取 所 有 的 候选 像素 点 ， 以 角 点 啊 应 值 递减 的 顺 
序 排序 ， 然 后 将 距离 已 标记 为 角 点 位 置 过 近 的 区 域 从 候选 像素 后 中 删除 。 将 下 面 的 
FAVS INE harris.py 文件 中 : 











i ge harris points(harrisim,min dist=10, threshold=0.1): 
" 从 一 幅 Harris 啊 应 图 像 中 返回 角 点 。min dist 为 分 割 角 点 和 图 像 边界 的 最 少 像素 数目 " 





# 寻找 高 于 国 值 的 候选 角 点 
corner threshold = harrisim.max() * threshold 
harrisim t = (harrisim > corner threshold) * 1 


# 得 到 候选 点 的 坐标 


coords = array(harrisim t.nonzero()).T 


# 以 及 它们 的 Harris 啊 应 值 


candidate values = [harrisim[c[0],c[1]] for c in coords] 


# 对 候选 点 按照 Harris 响应 值 进行 排序 


index = argsort(candidate values) 


# 将 可 行 点 的 位 置 保存 到 数组 中 
allowed locations = zeros(harrisim. shape) 
allowed locations[min dist:-min dist,min dist:-min dist] = 1 


# 按照 min distance 原则 ， 选 择 最 佳 Harris 点 
filtered coords = [| 
for i in index: 
if allowed locations[coords[i,O],coords[i,1]] == 1: 
filtered coords.append(coords|i]) 
allowed locations| (coords[i,0]-min_dist):(coords[i,O]+min dist), 
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(coords[i,1]-min dist): (coords[i,1]+min dist)] = 
return filtered coords 


MERA TEMER F FAA ris SET A AZ. AY SRA RP AY A PR AT AE 
用 Matplotlib 模块 绘制 函 数 ， 将 其 添加 到 harris.py 文件 中 ， 如 下 : 


def plot harris points(image, filtered coords): 


绘制 图 像 中 检测 到 的 角 点 """ 


figure() 

gray() 

imshow(image) 

plot([p[1] for p in filtered coords], [p[0o] for p in filtered coords], '*') 
axis('off') 

show() 


试 着 运行 下 面 的 命令 


im = array(Image.open('empire.jpg').convert('L')) 
harrisim = harris.compute harris response(im) 

filtered coords = harris.get_ harris points(harrisim,6) 
harris.plot_ harris points(im, filtered coords) 


首 完 ， 打 开 该 图 像 ， 转 换 成 灰 度 图 像 。 然 后 ， 计 算 啊 应 函数 ， 基 于 啊 应 值 选 择 角 点。 
最 后 ， 在 原始 图 像 中 覆盖 绘制 检测 出 的 角 上 把 。 绘 制 出 的 结 末 图 像 如 图 2-1 所 示 。 








(a) 











图 2-1; 使 用 Harris 角 点 检测 器 检测 角 点 : (a) X Harris 响应 函数 ，(b-d) HSIAPHAE 
0.01. 0.05 和 0.1 检测 出 的 角 点 


如 东 你 想 概 要 了 解 角 点 检测 的 不 同方 法 ， 包 括 Harris 角 点 检测 粥 的 改进 和 进一步 的 
开发 应 用 ， 可 以 查找 资源 ， 如 网 站 http://en.wikipedia.org/wiki/Corner_detection, 





Fe A el) ST DY A 

Harris 角 点 检测 器 仅仅 能 够 检测 出 图 像 中 的 兴趣 点 ， 但 是 没有 给 出 通过 比较 图 像 间 
的 兴趣 点 来 寻找 匹配 角 点 的 方法 。 我 们 需要 在 每 个 点 上 加 入 描述 子 信息 ， 并 给 出 一 
个 比较 这 些 描述 子 的 方法 。 











兴趣 点 描述 子 征 分 配给 兴趣 点 的 一 个 同 量 ， 摘 述 该 点 附近 的 图 像 的 表 观 信息 。 摘 述 
子 越 好 ， 寻 找到 的 对 应 挟 越 好 。 我 们 用 对 应 点 或 者 点 的 对 应 来 招 述 相同 物体 和 场景 
扩 在 不 同 图 像 上 形成 的 像素 所 。 


Harris 角 扩 的 接 述 子 通 第 是 由 周围 图 像 像素 块 的 灰 度 值 ， 以 及 用 于 比较 的 归 一 化 互 
相关 和 窍 阵 构 成 的 。 图 像 的 像素 块 由 以 该 像素 点 为 中 心 的 周围 矩形 部 分 图 像 构 成 。 


通常 ， 两 个 (相同 大 小 ) 像素 块 (x) FH L(x) 的 相关 给 阵 定 义 为 : 








c(h, h) = > A(x), b(x)) 





其 中 ， 函 数 f 随 着 相关 方法 的 变化 而 变化 。 上 式 取 像 素 块 中 所 有 像素 位 置 x 的 和 。 
对 于 互相 关 算 阵 ， 图 数 ACL, I=L, K E, c(i, T= 人 其 中 表示 问 量 乘法 
(按照 行 或 者 列 堆积 的 像素 )。cCi ， 厂 ) 的 值 越 大 ， 像 素 块 石 和 五 的 相似 度 越 高 。 


归 一 化 的 互相 关 惩 阵 古 互相 关 和 矩阵 的 一 种 变形 ， 可 以 定义 为 : 








neh, DD) = 1 Y EO ee) 


=) - (2.3) 


其 中 , n ARERR RAAT, u A 表示 每 个 像素 块 中 的 平均 像素 值 强 度 ，o 
和 o 分 别 表示 每 个 像素 块 中 的 标准 差 。 通 过 减 去 均值 和 除 以 标准 差 ， 该 方法 对 图 像 
亮度 变化 具有 稳健 性 。 


为 狭 取 图 像 像 素 块 ， 并 使 用 归 一 化 的 互相 关 息 阵 来 比较 它们 ， 你 需要 另外 两 个 国 数 。 
将 它们 添加 到 harris.py 文件 中 : 





def get_descriptors(image, filtered coords,wid=5): 
""" 对 于 每 个 返回 的 点 ， 返 回 点 周围 2*wid+1 个 像素 的 值 〈 假 设 选取 点 的 min distance > wid) """ 


desc = | 


for coords in filtered coords: 
patch = image[coords[0]-wid:coords|[0 ]+wid+1, 


HE 1: 另 一 个 常用 的 函数 是 X7,DD=(C-D)， 该 函数 表示 平方 差 的 和 (Sum of Squared Difference, SSD), 





局 部 图 像 描述 子 | 35 


coords|1]-wid:coords[1]+wid+1].flatten() 
desc.append(patch) 


return desc 


def match(desci,desc2, threshold=0.5): 
"" SPs URE As, EMAER, ee EES I eC "”" 


n = len(desc1[0]) 


# 点 对 的 距离 

d = -ones((len(desc1), len(desc2))) 

for i in range(len(desc1)): 

for j in range(len(desc2)): 
d1 = (desci[i] - mean(desci[i])) / std(desc1[i]) 
d2 = (desc2[j] - mean(desc2[j])) / std(desc2[j]) 
ncc_ value = sum(d1 * d2) / (n-1) 
if ncc_value > threshold: 
d[i,j] = ncc_value 


ndx = argsort(-d) 
matchscores = ndx[:,0] 


return matchscores 


第 一 个 国 数 的 参数 为 奇数 大 小 长 度 的 方形 灰 度 图 像 块 ， 该 图 像 块 的 中 心 为 处 理 的 像 
素 点 。 该 国 数 将 图 像 块 像素 值 压 平成 一 个 同 量 ， 然 后 添加 到 描述 子 列表 中 。 第 二 个 
国 数 使 用 归 一 化 的 互相 关 和 矩阵 ， 将 每 个 描述 子 匹配 到 另 一 个 图 像 中 的 最 优 的 候选 氮 。 
由 于 数值 较 高 的 距离 代表 两 个 点 能 够 更 好 地 匹配 ， 所 以 在 排序 之 前 ， 我 们 对 距离 取 
相反 数 。 为 了 获得 更 稳定 的 匹配 ， 我 们 从 第 二 幅 图 像 癌 第 一 幅 图 像 匹 配 ， 然 后 过 渡 
掉 在 两 种 方法 中 不 都 是 最 好 的 匹配 。 下 面 的 函数 可 以 实现 该 操作 : 





def match twosided(desc1,desc2, threshold=0.5): 
Wir 两 边 对 称 版 本 的 match ( ) Wu 


matches 12 = match(desc1,desc2, threshold) 
matches 21 = match(desc2,desc1, threshold) 


ndx 12 = where(matches 12 >= 0)[0] 


# 去 除非 对 称 的 匹配 
FOr. nin nox 12% 
if matches 21[matches 12[n]] != n: 
matches 12[n] = -1 





return matches 12 


JX PE PE BC AY LA ah ack E A ad a ll A h RR, (E H 2k Boe E F DE AY RR SE e 
可 视 人 化。 下面 的 代码 可 以 实现 匹配 点 的 可 视 化 。 将 这 两 个 函数 添加 到 harris.py X 
fA 


def appendimages(im1, im2) : 


""" 返回 将 两 幅 图 像 并 排 拼 接 成 的 一 幅 新 图 像 """ 








# 选取 具有 最 少 行 数 的 图 像 ， 然 后 填充 足够 的 空 行 
rows1 = im1.shape[0]| 
rows2 = im2.shape[0]| 


if rows1 < rows2: 

im1 = concatenate((im1,zeros((rows2-rows1, im1.shape[1]))),axis=0) 
elif rows1 > rows2: 

im2 = concatenate((im2,zeros((rows1-rows2, im2.shape[1]))),axis=0) 


# 如 果 这 些 情况 都 没有 ， 那 么 它们 的 行 数 相同 ， 不 需要 进行 填充 





return concatenate( (im1,im2), axis=1) 


def plot matches(im1,im2,1ocs1,1ocs2,matchscores, show below=True): 
""" 显示 一 幅 带 有 连接 匹配 之 则 连 线 的 图 片 
输入 : im1，im2 (数组 图 像 )，locs1，locs2 (特征 位 置 )，matchscores (match() 的 输出 )， 
show below (如 果 图 像 应 该 显示 在 匹配 的 下 方 ) """ 








im3 = appendimages(im1, im2 ) 
if show below: 
im3 = vstack((im3, im3) ) 


imshow(im3 ) 


cols1 = im1.shape[1] 
for i,m in enumerate(matchscores): 
if m>0: 
plot({locs1[i][1],locs2[m][1]+cols1],[locs1[i][0],locs2[m][o]],'c') 
axis off) 


图 2-2 Ate FAVA — 40 BSE ERE (在 这 个 例子 中 ， 每 个 像素 块 的 大 小 为 11 x 11) 
来 寻找 对 应 点 的 例子 。 该 图 像 可 以 通过 下 面 的 命令 实现 : 
wid = 5 


harrisim = harris.compute harris response(im1,5) 
filtered coords1 = harris.get harris points(harrisim,wid+1) 
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di = harris.get_descriptors(im1, filtered coords1,wid) 


harrisim = harris.compute harris response(im2,5) 
filtered coords2 = harris.get harris points(harrisim,wid+1) 
d2 = harris.get_descriptors(im2,filtered_ coords2,wid) 


print ‘starting matching’ 
matches = harris.match twosided(d1,d2) 


figure() 

gray() 
harris.plot_matches(im1,im2,filtered coordsi,filtered coords2,matches) 
show( ) 























为 了 看 得 更 清楚 ， 你 可 以 画 出 匹配 的 子 集 。 在 上 面 的 代码 中 ， 可 以 通过 将 数组 
matches $ ft ak, matches[:100] 或 者 任意 子 集 来 实现 。 





如 图 2-2 所 示 ， 该 算法 的 结 来 存在 一 些 不 正确 匹配 。 这 是 因为 ， 与 现代 的 一 些 方法 
FALE, ARR SREY AIRERA BSS TATE. Seb AH, RENER GE A 
稳健 的 方法 来 处 理 这 些 对 应 匹配 。 这 些 搬 述 符 还 有 一 个 问题 ， 它 们 不 具有 尺度 不 变 
性 和 旋转 不 变性 ， 而 算法 中 像素 块 的 大 小 也 会 影响 对 应 匹配 的 结 采 。 


近年 来 诞生 了 很 多 用 来 提高 特征 点 检测 和 描述 性 能 的 方法 。 在 下 一 玫 中 ， 我 们 来 学 
习 其 中 最 好 的 一 种 算法 。 


2.2 SIFT 《尺度 不 变 特征 变换 ) 


David Lowe 在 文献 [17] 中 提出 的 SIFT (Scale-Invariant Feature Transform， 尺 度 不 
变 特 征 变换 ) 征 过 去 十 年 中 最 成 功 的 图 像 局 部 描述 子 之 一 。SIFT 特征 后 来 在 文献 
[18] 中 得 到 精炼 并 详 述 ， 经 受 住 了 时 间 的 考验 。SIFT 特征 包括 兴趣 点 检测 如 和 摘 述 
T. SIFT 插 述 子 具有 非 第 强 的 稳健 性 ， 这 在 很 大 程度 上 也 是 SIFT 特征 能 够 成 功 和 
流行 的 主要 原因 。 目 从 SIFT 特征 的 出 现 ， 许 多 其 他 本 质 上 使 用 相同 描述 子 的 方法 
也 相继 出 现 。 现 在 ，SIFT 描述 符 经 常 和 许多 不 同 的 兴趣 点 检测 左 相 结合 使 用 《有 些 
情况 下 是 区 域 检 测 左 ) ， 有 时 甚至 在 整 幅 图 像 上 密集 地 使 用 。SIFT 特征 对 于 尺度 、 
旋转 和 亮度 都 具有 不 变性 ， 因 此 ， 它 可 以 用 于 三 维 视角 和 噪声 的 可 乱 匹 配 。 你 可 以 
在 http://en.wikipedia.org/wiki/Scale-invariant_feature_transform 获得 SIFT 特征 的 位 
要 介绍 。 














2.2.1 兴趣 点 
SIFT 特征 使 用 高 斯 差分 函数 来 定位 兴趣 点 : 





D(X,0)=[G,.(X)—G,(X) LLG, Gh, 


RA, G 是 上 一 章 中 介绍 的 二 维 高 斯 核 , 五 是 使 用 G, 模糊 的 灰 度 图 像 ，x 是 决定 相 
EREITEA FoR Re TER RL AR Ee (EP D(x,o) We AAA MA. HE 
Wet he ABI ABR A el EA. AE BEEN, EECA ROT E Ee Fa EY 
扎 不 征 兴趣 点 ， 我 们 可 以 去 除 一 些 候选 兴趣 点 。 你 可 以 参考 文献 [17, 18] 了 解 更 多 。 








2.2.2 WET 
上 面 讨论 的 兴趣 点 (关键 点 ) 位 置 描述 子 给 出 了 兴趣 点 的 位 置 和 尺度 信息 。 为 了 实 
现 旋 转 不 变性 ， 基 于 每 个 点 周围 图 像 梯度 的 方向 和 大 小 ，SIFT 描述 子 又 引入 了 人 参 芳 
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HH. SIFT 描述 子 使 用 主 方 同 描述 参考 方 同 。 主 方 癌 使 用 方 癌 直方 图 (以 大 小 为 权 
重 ) 来 度量 。 


下 面 我 们 基于 人 位置、 尺度 和 方 问 信息 来 计算 拉 述 子 。 为 了 对 图 像 亮度 具有 稳健 性 ， 
SIFT 描述 子 使 用 图 像 梯度 (之 前 Harris 描述 子 使 用 图 像 亮 度 信息 计算 归 一 化 互相 关 
IERE). SIFT 描述 子 在 每 个 像素 点 附近 选取 子 区 域 网 格 ， 在 每 个 子 区 域内 计算 图 像 
梯度 方 问 直方 图 。 每 个 子 区 域 的 直方 图 拼接 起 来 组 成 描述 子 同 量 。SIEFT 描述 子 的 标 
准 设置 使 用 4x4 的 子 区 域 ， 每 个 子 区 域 使 用 8 个 小 区 间 的 方 同 直方 图 ,会 产生 共 
128 个 小 区 间 的 直方 图 (4x4x8=128)。 图 2-3 所 示 为 拉 述 子 的 构造 过 程 。 感 兴 
的 读者 可 以 参考 文献 [18] 获取 更 多 内 容 ， 或 者 从 http://en.wikipedia.org/wiki/Scale- 
invariant. feature_transform 概要 了 解 SIFT 特征 描述 子 。 














| ee ee ee ee 





(d) 











图 2-3: 构造 SIFT 描述 子 特征 向 量 的 图 解 : (a) 一 个 围绕 兴趣 点 的 网 格 结构 ， 其 中 该 网 格 已 
经 按照 梯度 主 万 向 进行 了 旋转 ; (b) 在 网 格 的 一 个 子 区 域内 构造 梯度 万 向 的 8-bin BB; (c) 
在 网 格 的 每 个 子 区 域内 提取 直方 图 ;(d) 拼接 直方 图 ， 得 到 一 个 长 的 特征 向 量 


2.2.3 检测 兴趣 点 

我 们 使 用 开源 工具 包 VLFeat 提供 的 二 进 制 文件 来 计算 图 像 的 SIFT 特征 [36]。 用 完 
整 的 Python 实现 SIFT 特征 的 所 有 步骤 可 能 效率 不 是 很 高 ， 并 且 超 出 了 本 书 的 泄 围 。 
VLFeat 工具 包 可 以 从 http://www.vlfeat.org/ 下载， 二进制 文件 可 以 在 所 有 主要 的 平 
台 上 运行 。VLFeat 库 是 用 C 语言 来 写 的 ， 但 是 我 们 可 以 使 用 该 库 提 供 的 命令 行 接 
口 。 如 果 你 认为 使 用 Matlab 接口 或 者 Python 包装 器 比 二 进 制 文件 更 方便 ， 可 以 从 
http://github.com/mmmikael/vlfeat/ 下 载 相 应 的 版 本 。 由 于 Python 包装 喜 对 平台 的 依 
RUPE, Zi Python 包装 絮 在 某 些 平台 上 需要 一 定 的 技巧 ， 所 以 我 们 这 里 使 用 二 进 制 





文件 版 本 。Lowe 的 个 人 网 站 上 也 有 SIFT 特征 的 实现 ， 可 以 参见 http://www.cs.ube. 
ca/~lowe/keypoints/， 该 代码 仅 适 用 于 Windows 系统 和 Linux 系统 。 





创建 sift.py 文件 ， 将 下 面 调用 可 执行 文件 的 函数 添加 到 该 文件 中 : 


def process image(imagename,resultname,params="--edge-thresh 10 --peak-thresh 5"): 


""" 处理 一 幅 图 像 ， 然 后 将 结 末 保 存在 文件 中 "”" 





if imagename[-3:] != 'pgm': 
# 创建 一 个 pgm 文件 
im = Image.open(imagename).convert('L' ) 
im.save('tmp.pgm' ) 
imagename = 'tmp.pgm' 


cmmd = str("sift "+imagename+" --output="+resultname+ 
" "+params ) 

os.system(cmmd ) 

print ‘processed’, imagename, ‘to', resultname 


由 于 该 二 进 制 文件 需要 的 图 像 格 式 为 灰 度 .pgm， 所 以 如 琳 图 像 为 其 他 格式 ， 我 们 
需要 首先 将 其 转换 成 .pgm 格式 文件 。 转 换 的 结 来 以 易 读 的 格式 保存 在 文本 文件 中 。 
文本 文件 如 下 : 


oro0l JA82 T Md200L M08523 .000 Al 00000 A M00 sn 
310,001 ,7346227. 1.12001 2299965 11 2-00 Avo) 0-0 17307 050! wa 
54.2821 14.8586 0.895827 4.29821 60 4600000099 4200... 
155.714 23.0575 1.10741 1.54095 6 00 0 150 1100 150 1821... 
4239729 24201270909317 4A708892 90.29 0 00:1 2 -107945-5 IT ase. 
22903/237003 0921754- 1.48754. 3-000 TAT-3 O 0-141 45 O Uraa 
232.302 24:0091 1.0578 -1,05089 TI 10-16-1340 Q0- 106 21 T6 33 .2 
2545057 104879. 2.01064 10: 4A 1-8 142 1-988 13090) wy 


201.256 





上 面 数据 的 每 一 行 前 4 个 数值 依次 表示 兴趣 点 的 坐标 、 尺 度 和 方 加 角度， 后面 其 接 
着 的 是 对 应 接 述 符 的 128 维 癌 量 。 这 里 的 描述 子 使 用 原始 整数 数值 表示 ， 设 有 经 过 
归 一 化 处 理 。 当 你 需要 比较 这 些 摘 述 符 时 ， 要 做 一 些 处 理 。 更 多 的 内 容 请 匈 后 面 的 


介绍 。 
上 面 的 例子 显示 的 征 在 一 幅 图 像 中 前 8 个 特征 的 前 面部 分 数值 。 注 意 前 两 行 的 坐标 
值 相 同 ， 但 是 方向 不 同 。 当 同一 个 兴趣 点 上 出 现 不 同 的 显著 方 同 ， 这 种 情况 就 会 出 
SLAY 


下 面 是 如 何 从 像 上 面 的 输出 文件 中 ， 将 特征 读 取 到 NumPy 数组 中 的 国 数 。 将 该 国 数 
添加 到 sift.py 文件 中 : 
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def read features from file(filename): 


""" 读 取 特征 属性 值 ， 然 后 将 其 以 矩阵 的 形式 返回 """ 


f = loadtxt(filename) 
return f[:,:4],f[:,4:] # 特征 位 置 ， 描 述 子 


在 上 和 面 的 函数 中 ， 我 们 使 用 NumpPy 库 中 的 loadtxt() 函数 来 处 理 所 有 的 工作 。 


QUE Python 会 话 中 修改 描 述 子 ， 你 需要 将 输出 结果 保存 到 特征 文件 中 。 下 面 的 函 
数 使 用 NumPy 库 中 的 savetxt() 国 数 ， 可 以 帮 你 实现 该 功能 : 





def write features to file(filename, locs,desc): 
…" 将 特征 位 置 和 描述 子 保存 到 文件 中 


savetxt (filename, hstack((locs,desc))) 


上 面 的 函数 使 用 了 hstack() PAC. 1% PRC BHAA TADS 17 BEE KAES 
个 向 量 的 功能 。 在 这 个 例子 中 ， 每 一 行 中 前 几 列 为 位 置信 息 ， 紧 接着 是 描述 子 。 


读 取 特征 后 ， 通 过 在 图 像 上 绘制 出 它们 的 位 置 ， 可 以 将 其 可 视 化 。 将 下 面 的 plot 
features() 国 数 添 加 到 sift.py 文件 中 ， 可 以 实现 该 功能 。 





def plot_features(im, locs,circle=False): 
""" 显示 市 有 特征 的 图 像 
输入 : im (数组 图 像 )，1ocs (每 个 特征 的 行 、 列 、 尺 度 和 方向 角度 )""" 


def draw circle(c,r): 
= arange( 0; 14015701) *2* 1 
x = Ir*cos(t) + c[o] 
y = r*sin(t) + c[1] 
plot(x,y,'b', lLinewidth=2) 


imshow(im) 
if circle: 
for p in locs: 
draw _circle(p[:2],p[2]) 
else: 
plot (loes|=,0|,ocs| aal ob") 
axis('off') 


该 函数 在 原始 图 像 上 使 用 蓝 色 的 圆圈 绘制 出 SIFT 特征 点 的 位 置 。 将 参数 circle 的 
选项 设置 为 True， 该 函数 将 使 用 draw circle() 国 数 绘制 出 圆圈 ， 圆 圈 的 半径 为 特 
征 的 尺度 。 





你 可 以 通过 下 面 的 命令 绘制 出 如 图 2-4b 中 SIFT 特征 位 置 的 图 像 : 





import sift 


imname = ‘empire.jpg' 

im1 = array(Image.open(imname).convert('L")) 
sift.process image(imname, 'empire.sift' ) 

11,d1 = sift.read features from file(‘empire.sift') 


figure() 


gray() 
sift.plot_features(im1,11,circle=True) 
show() 


为 了 比较 Harris 角 点 和 SIFT 特征 的 不 同 ， 右 图 (图 2-4c) 显示 的 是 同一 幅 图 像 的 
Harris 角 点 。 你 可 以 看 到 ， 两 个 算法 所 选择 特征 点 的 位 置 不 同 。 














2-4: 对 一 幅 图 像 提取 SIFT 特征 。(a) SIFT 特征 ; (b) 使 用 圆圈 表示 特征 尺度 的 SIFT 特征 ; 
(c) 为 了 比较 ， 对 于 同一 幅 图 像 提 取 Harris AR 


2.2.4 ”匹配 描述 子 

对 于 将 一 幅 图 像 中 的 特征 匹配 到 另 一 幅 图 像 的 特征 ， 一 种 稳健 的 准则 (同样 是 由 

Lowe 提出 的 ) 是 使 用 这 两 个 特征 距离 和 两 个 最 匹配 特征 距离 的 比率 。 相 比 于 图 像 

中 的 其 他 特征 ， 该 准则 保证 能 够 找到 足够 相似 的 唯一 特征 。 使 用 该 方法 可 以 使 错误 

的 匹配 数 降 低 。 下 面 的 代码 实现 了 匹配 函数 。 将 match() 函数 添加 到 sift.py 文件 中 : 
def match(desc1, desc2): 


""" 对 于 第 一 幅 图 像 中 的 每 个 描述 子 ， 选 取 其 在 第 二 幅 图 像 中 的 匹配 
输入 : desc1〈 第 一 幅 图 像 中 的 描述 子 )，desc2 (第 二 幅 图 像 中 的 描述 子 )""" 
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desc1 = array([d/linalg.norm(d) for d in desc1]) 
desc2 = array([d/linalg.norm(d) for d in desc2]) 


dist_ratio = 0.6 
desc1 size = desci.shape 


matchscores = zeros((desc1 size[0],1),'int') 
desc2t = desc2.T # 预先 计算 矩阵 转 置 
for i in range(desc1 size[0]): 
dotprods = dot(desci[i,:],desc2t) # 向 量 点 乘 
dotprods = 0.9999*dotprods 
E 反 余 嘴 和 反 排 序 ， 返 回 第 二 幅 图 像 中 特征 的 索引 


indx = argsort(arccos(dotprods) ) 








# 检查 最 近邻 的 角度 是 否 小 于 dist ratio 乘 以 第 二 近邻 的 角度 
if arccos(dotprods)[indxlojj dist ratio * arccos(dotprods)[indx[1]]: 
matchscores[i] = int(indx[0]) 


return matchscores 





iA PRB AE HE FT] TA AR PAE As ee, EZA, PA Be aS FU) a 
归 一 化 到 单位 长 度 。 因 为 这 种 匹配 是 单 向 的 ， 即 我 们 将 每 个 特征 向 另 一 幅 图 像 中 的 
所 有 特征 进行 匹配 ， 所 以 我 们 可 以 先 计 算 第 二 幅 图 像 兴 趣 点 描述 子 辐 量 的 转 置 矩阵 。 
这 样 ， 我 们 不 不 需要 对 每 个 特征 分 别 进 行 转 置 操作 。 


为 了 进一步 增加 匹配 的 稳健 性 ， 我 们 可 以 再 反 过 来 执行 一 次 该 步骤 ， 用 另外 的 方 
法 匹配 (从 第 二 幅 图 像 中 的 特征 向 第 一 幅 图 像 中 的 特征 匹配 )。 最 后 ， 我 们 仪 保留 
同时 满足 这 两 种 匹配 准则 的 对 应 (和 我 们 对 Harris 角 点 的 处 理 方法 相同 )。 下 面 的 
match twosided() 国 数 可 以 实现 该 操作 : 


def match twosided(desc1,desc2): 
"" 双向 对 称 版 本 的 match()""" 


matches 12 = match(desc1,desc2) 
matches 21 = match(desc2,desc1) 


ndx_12 = matches 12.nonzero()[0] 


# 去 除 不 对 称 的 匹配 
for n in ndx 12: 
if matches 21[int(matches 12[n])] != n: 
matches 12[n] = 0 


return matches 12 





TE 1: 对 于 单位 向 量 ， 向 量 乘 积 (不 使 用 arccos() 国 数 ) 等 价 于 标准 欧式 距离 度量 。 





| 人 大 大 


44 第 2 章 


为 了 绘制 出 这 些 匹 配点 ， 我 们 可 以 使 用 在 harris.py 用 到 的 相同 函数 。 方 便 起 见 ， 将 
appendimages() 国 数 和 plot_matches() 图 数 复制 过 来 。 然 后 ， 将 它们 添加 到 sift.py 
文件 中 。 如 果 你 喜欢 ， 也 可 以 通过 载 入 harris.py 来 使 用 这 两 个 函数 。 





2-5 和 图 2-6 是 在 图 像 对 中 检测 SIFT 特征 点 的 例子 ， 以 及 通过 match twosided() 
男 数 返回 的 特征 点 匹配 情况 。 











2-5: 在 两 幅 图 像 间 检测 和 匹配 SIFT 特征 
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2-6: 在 两 幅 图 像 间 检测 和 匹配 SIFT 特征 





2-7 是 在 两 幅 图 像 中 分 别 使 用 match() 国 数 和 match twosided() 函数 匹配 特征 的 男 
一 个 例子 。 正 如 你 所 看 到 的 一 样 ， 使 用 对 称 (两 思 ) 匹配 条 件 可 以 去 除 不 正确 的 匹 
配 ， 保 留 好 的 匹配 (一 些 正确 的 匹配 也 被 去 除了 )。 











图 2-7: 在 两 幅 图 像 间 匹 配 SIFT 特征 的 例子 : (a) 不 使 用 两 边 匹配 函数 ， 将 左边 图 像 中 的 特 
征 向 右边 图 像 中 的 特征 匹配 ，(b) 使 用 两 边 匹配 图 数 后 ， 剩 余 的 匹配 情 


通过 检测 和 匹配 特征 点 ， 我 们 可 以 将 这 些 局 部 描述 子 应 用 到 很 多 例子 中 。 为 了 稳健 
地 过 着 掉 这 些 不 正确 的 匹配 ， 接 下 来 的 两 个 章 贡 将 会 在 对 应 上 加 入 几何 学 的 约束 天 
系 ， 并 将 局 部 接 述 子 应 用 到 一 些 例 子 中 ， 比 如 自动 创建 全 景 图 、 照 相机 姿态 估计 以 
及 三 维 结构 计算 。 


2.3 ”匹配 地 理 标记 图 像 


我 们 将 通过 一 个 示例 应 用 来 结束 本 章 贡 。 在 这 个 例子 中 ， 我 们 使 用 局 部 摘 述 子 来 匹 
配 珊 有 地 理 标 记 的 图 像 。 


2.3.1 从 Panoramio 下 载 地 理 标记 图 像 

你 可 以 从 谷歌 提供 的 照片 共享 服务 Panoramio (http://www.panoramio.com/) 3k 
得 地 理 标 记 图 像 。 像 许多 网 络 资源 一 样 ，Panoramio 提供 一 个 API 接口 ， 方便 用 
户 使 用 程序 访问 这 些 内 容 。Panoramio 的 API JE% f% At, PÆ http://www. 
panoramio.com/api/ 上 找到 API 的 使 用 方式 。 你 可 以 通过 HTTP GET 方式 访问 网 址 
内 容 9 如 下 : 
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http://www. panoramio.com/map/get_panoramas.php?order=popularity&set=public& 
From=0&to=20&minx=-180&miny=- 90&maxx=1808maxy=908s ize=medium 


其 中 的 minx, miny, maxx 和 maxy 定义 了 选取 照片 的 地 理 区 域 位 置 (分 别 表 示 最 
小 经 度 、 最 小 纬度 、 最 大 经 度 和 最 大 纬度 )， 你 会 得 到 可 以 人 简单 解析 的 JSON 格式 的 
IHE. JSON 是 用 于 网 络 服务 间 数 据 传输 的 常用 格式 ， 比 XML 和 其 他 格式 更 轻便 。 
你 可 以 从 http://en.wikipedia.org/wiki/JSON 获取 更 多 关于 ISON 的 内 容 。 


你 可 以 使 用 两 个 不 同 的 视 氮 来 看 华盛顿 日 宫 的 位 阐 ， 通 毅 从 袜 夕 法 尼 亚 大 街 曾 侧 扫 
摄 ， 或 者 从 北 侧 拍摄 。 其 坐标 〈 纬 度 、 经 度 ) 如 下 : 


1t=38.897661 
In=-77.036564 


为 了 转换 成 API 调用 需要 的 格式 ， 需 要 在 这 些 坐 标 值 上 减 去 或 者 加 上 一 个 数值 ,来 
歼 得 以 白宫 为 中 心 的 正方 形 范 围 内 的 所 有 图 像 。 调 用 如 下 : 








http://www. panoramio.com/map/get_panoramas.php?order=popularity&set=public& 
Ffrom=0&to=20&minx=-77.037564&miny=38 .896662&maxx=- 77 .0355648maxy=38 . 8986628 
Size=medium 


该 调用 返回 在 坐标 边界 内 (40.001) 的 前 20 幅 图 像 ， 这 些 图 像 按照 用 户 访 问 情况 
排序 。 调 用 的 响应 格式 如 下 : 


{ "count": 349, 

"photos": [{"photo id": 7715073, "photo title": "White House", "photo url": 
"http: //www.panoramio.com/photo/7715073", "photo file url": 

"http: //mw2.google.com/mw-panoramio/photos/medium/7715073.jpg', "longitude": 
-77.036583, "latitude": 38.897488, "width": 500, "height": 375, "upload date": 
"10 February 2008", “owner id": 1213603, “owner name": "***", “owner url": 
"http://www. panoramio.com/user/1213603" } 

{"photo_id": 1303971, "photo title": "White House balcony", "photo url": 
"http://www. panoramio.com/photo/1303971", “photo file url": 

"http: //mw2.google.com/mw-panoramio/photos/medium/1303971. jpg", "longitude": 
-77.036353, "latitude": 38.897471, "width": 500, "height": 336, "upload date": 
"13 March 2007", “owner id": 195000, “owner name": "***", “owner url": 
"http://www. panoramio.com/user/195000" } 


}} 
为 了 解析 这 个 JSON 格式 的 响应 ， 我 们 可 以 使 用 simplejson 工具 包 ， 可 以 从 http:// 
github.com/simplejson/simplejson 下 载 。 在 项 目 界 面 上 ， 可 以 看 到 在 线 的 说 明文 档 。 





如 采 你 使 用 的 Python 是 2.6 或 之 后 的 版 本 ， 因 为 在 这 些 后 来 版 本 中 已 经 包含 JSON 
库 ， 所 以 不 需要 使 用 simplejson 工具 包 。 如 果 想 使 用 内 置 的 JSON 库 ， 你 只 需要 像 
这 样 导 入 即 可 : 


import json 


如 果 你 想 使 用 上 面 链接 中 的 simplejson 工具 包 《速度 很 快 ， 并 且 比 内 置 包含 更 新 的 
内 容 ) ， 一 个 非常 好 的 办 法 是 使 用 可 靠 的 方式 导入 它 ， 如 下 : 


try: import simplejson as json 
except ImportError: import json 


下 面 的 代码 将 使 用 Python 里 的 urllib 工具 包 来 处 理 请 求 ， 然 后 使 用 simplejson T 
有 具 包 解析 返回 结 东 : 


import os 
import urllib, urlparse 
import simplejson as json 


# 查询 图 像 

url = ‘http://www.panoramio.com/map/get_panoramas.php?order=popularity&\ 
set=public&from=08to=20&minx=- 77 .037564&miny=38 . 8966628\ 
Maxx=-77.035564maxy=38.898662%size=medium' 

c = urllib.urlopen(url) 


# 从 ISON 中 获得 每 个 图 像 的 url 

j = json.loads(c.read()) 

MULLS = f] 

for im in j[ photos]: 
imurls.append(im['photo file url']) 


# 下 载 图 像 

for url in imurls: 
image = urllib.URLopener() 
image.retrieve(url, os.path.basename(urlparse.urlparse(url).path) ) 
print ‘downloading:', url 


通过 ISON 的 输出 可 以 看 到 ， 我 们 需要 的 是 photo file url 字段。 运行 上 面 的 代码 ， 
在 控制 侣 上 你 应 该 能 够 看 到 类 似 下 面 的 数据 : 





downloading: http://mw2.google.com/mw-panoramio/photos/medium/7715073. jpg 
downloading: http://mw2.google.com/mw-panoramio/photos/medium/1303971. jpg 
downloading: http://mw2.google.com/mw-panoramio/photos/medium/270077. jpg 
downloading: http://mw2.google.com/mw-panoramio/photos/medium/15502. jpg 
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2-8 是 本 例子 中 返回 的 20 幅 图 像 。 接 下 来 ， 我 们 仅仅 需要 找到 并 匹配 这 些 图 像 对 
之 间 的 特征 。 
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2-8: 从 panoramio.com 下 载 的 在 同一 个 地 理 位 置 点 (以 白宫 为 中 心 的 方形 区 域 ) 上 拍摄 
的 图 像 


2.3.2 ”使 用 局 部 描述 子 匹 配 
我 们 刚才 已 经 下 载 了 这 些 图 像 ， 下 面 需要 对 这 些 图 像 提 取 局 部 描述 子 。 在 这 种 情 
况 下 ， 我 们 将 使 用 前 面部 分 讲述 的 SIFT 特征 描述 子 。 我 们 假设 已 经 对 这 些 图 像 使 
用 SIFT 特征 提取 代码 进行 了 处 理 ， 并 且 将 特征 保存 在 和 图 像 同 名 〈 但 文件 名 后 组 
是 sift, MAA jpg) 的 文件 中 。 假 设 imlist 和 featlist 列表 中 包含 这 些 文件 名 。 
我 们 可 以 对 所 有 组 合 图 像 对 进行 逐个 匹配 ， 如 下 : 

import sift 

nbr images = len(imlist) 

matchscores = zeros((nbr images,nbr images)) 


for i in range(nbr images): 
for j in range(i,nbr images): # 仅仅 计算 上 三 角 





print ‘comparing ', imlist[i], imlist[j] 


11,d1 = sift.read features from file(featlist[i]) 
12,d2 = sift.read features from file(featlist[j]) 


matches = sift.match twosided(d1, d2) 
nbr matches = sum(matches > 0) 


print ‘number of matches = ', nbr matches 
matchscores[i,j] = nbr matches 


# 复制 值 


for 


i in range(nbr images): 


for j in range(i+1,nbr images): # 不 需要 复制 对 角 线 


matchscores[j,i] = matchscores[i,j] 


我 们 将 每 对 图 像 间 的 匹配 特征 数 保存 在 matchscores 数组 中 。 因 为 该 “距离 度量 ”是 


对 称 的 ， 所 以 我 们 可 以 不 在 代码 的 最 后 部 分 复制 数值 ， 来 将 matchscores EEATT E 
整 ， 填充 完整 后 的 matchscores EREA ERKE. AER E BRAI matchscores 
和 矩阵 里 的 数值 如 下 : 

人 

0901010001100100000012 

0026600000000001000000 

D4 OMA 1-002 21000 2 a ho 6 

00001748001000002000001 

00000174700100000000110 

oo 0:0 555.0 00 1.040 90:0: 5. 1/0 

04 0:2 400 22060 00 1.06262 04 4 

11000100 6290000000100 20 

000000000 8290010000002 

0000001000 1028000001110 

11020041000 528521503600 

250020: E 0 12025 736 ,lo 3°37 40 

0010200000021 620100100 

3000002100015 41 55306910 

000000000000000 22730100 


19) 0:0 2°50-0° 0:2. 1-0 535 3:06, 0 542 000 


1 0 
O 1 
2 2 


4 
0201110010101003 1139 0 
001001202000000000 499 


使 用 该 matchscores 和 矩阵 作为 图 像 间 人 简单 的 距离 度量 方式 (具有 相似 内 容 的 图 像 
间 拥 有 更 多 的 匹配 特征 数 )， 下 面 我 们 可 以 使 用 相似 的 视觉 内 容 来 将 这 些 图 像 连 接 


起 来 。 





局 部 图 像 描述 子 | 51 


2.3.3 可视化 连接 的 图 像 

我 们 首先 通过 图 像 间 是 否 具 有 匹配 的 局 部 描述 子 来 定义 图 像 间 的 连接 ， 然 后 可 视 化 
这 些 连 接 情况 。 为 了 完成 可 视 化 ， 我 们 可 以 在 图 中 显示 这 些 图 像 ， 图 的 边 代 表 连 接 。 
我 们 将 会 使 用 pydot 工具 包 (http://code.google.com/p/pydot/), 该 工具 包 是 功能 强 
大 的 GraphViz 图 形 库 的 Python 接口。Pydot 使 用 Pyparsing (http://pyparsing.wiki 
spaces.com/) 和 GraphViz (http://www.graphviz.org/) ; 不 用 担心 ， 这 些 都 非常 容 
YR, ARE ILA Bt TORK 


Pydot 韭 党 容易 使 用 。 下 面 的 一 小 段 代 码 很 好 地 展示 了 这 一 点 。 该 代码 会 创建 一 个 
， 该 图 表示 深度 为 2 的 树 ， 具 有 5 个 分 支 ， 将 分 支 的 编号 添加 到 分 支 拉 后 上 。 
的 结构 如 图 2-9 所 示 。 我 们 有 很 多 方法 来 修改 图 的 布局 和 外 观 。 如 果 你 想 了 解 更 多 
内 容 ， 可 以 查看 Pydot 的 说 明文 档 ， 或 者 在 http://www.graphviz.org/Documentation. 
php 查看 GraphViz 使 用 的 DOT 语言 介绍 。 











import pydot 
g = pydot.Dot(graph type='graph') 


g.add node(pydot.Node(str(0), fontcolor='transparent' )) 
for i in range(5): 
g.add_node(pydot.Node(str(i+1) )) 
g.add edge(pydot.Edge(str(0),str(it+1))) 
for j in range(5): 
g.add node(pydot .Node(str(j+1)+'-'+str(i+1) )) 
g.add edge(pydot.Edge(str(j+1)+'-'+str(i+1),str(j+1))) 
g.write png('graph.jpg' ,prog='neato' ) 

















我 们 接 下 来 继续 探讨 地 理 标记 图 像 处 理 的 例子 。 为 了 创建 显示 可 能 图 像 组 的 图 ， 如 
本 匹 配 的 数目 高 于 一 个 国 值 ， 我 们 使 用 边 来 连接 相应 的 图 像 贡 点 。 为 了 得 到 图 中 的 
图 像 ， 需 要 使 用 图 像 的 全 路 径 〈 在 下 面 例子 中 ， 使 用 path 变量 表示 )。 为 了 使 图 像 
看 起 来 课 亮 ， 我 们 需要 将 每 幅 图 像 尺 度 化 为 缩 略图 形式 ， 缩 略图 的 最 大 边 为 100 像 
素 。 下 面 征 具 体 实 现代 码 : 











import pydot 
threshold = 2 # 创建 关联 需要 的 最 小 匹配 数目 


g = pydot.Dot(graph type='graph') # 不 使 用 默认 的 有 向 图 
for i in range(nbr_images): 
for j in range(i+1,nbr_images): 
if matchscores[i,j] > threshold: 
E 图 像 对 中 的 第 一 幅 图 像 
im = Image.open(imlist[i]) 
im. thumbnail ((100, 100) ) 
filename = str(i)+'.png' 
im.save(filename) # 需要 一 定 大 小 的 临时 文件 
g.add node(pydot.Node(str(i), fontcolor='transparent' , 
shape='rectangle' , image=path+filename) ) 


# 图 像 对 中 的 第 二 幅 图 像 

im = Image.open(imlist[j]) 

im. thumbnail((100, 100) ) 

filename = str(j)+'.png' 

im.save(filename) # 需要 一 定 大 小 的 临时 文件 

g.add node(pydot.Node(str(j), fontcolor='transparent', 
shape='rectangle' , image=path+filename) ) 


g.add edge(pydot.Edge(str(i),str(j))) 
g.write png('whitehouse.png' ) 


Rabie fr ae AANA 2-10 Bras. ARAYA PRA A a RP aE EK 
特定 的 例子 ， 我 们 使 用 两 组 图 像 ， 每 组 分 别 古 两 个 视角 的 日 宫 图 像 。 


这 个 应 用 是 使 用 局 部 描述 子 来 匹配 图 像 间 区 域 的 一 个 简单 例子 。 在 该 应 用 中 ， 我 们 
没有 使 用 针对 任何 匹配 的 限制 约束 。 匹 配 的 约束 〈 具 有 很 强 的 稳健 性 ) 可 以 通过 接 
下 来 两 草 中 的 内 容 来 实现 。 








局 部 图 像 描述 子 | 53 




















2-10: 使 用 局 部 描述 子 将 在 同一 地 理 位 置 点 拍摄 图 像 进行 分 类 


练习 


(1) 为 了 让 匹配 具有 更 强 的 稳健 性 ， 修 改 用 于 匹配 Harris 角 点 的 国 数 ， 使 其 输入 参 
数 中 包含 认为 两 点 存在 对 应 关系 允许 的 最 大 像素 距离 。 

(2) 对 一 幅 图 像 不 断 地 应 用 模糊 操作 (或 者 ROF 去 品 ) ， 使 得 模糊 效 末 越 来 越 强 ， 然 
后 提取 Harris 角 点 ， 会 出 现 什么 问题 ? 











邮 


(3) 另 一 种 Harris A AM as ze RK AA el at. AIR BRR fA a a AY SEL 
法 ， 包 括 纯 Python 语言 实现 的 版 本 ， 可 以 在 http://www.edwardrosten.com/work/ 
fast.html 下载。 尝试 使 用 该 检测 强 ， 使 用 敏感 性 的 国 值 ， 然 后 将 结果 和 Harris 角 
Fa For Ol as FeO OY) FR LER 

(4) AA fel 7 HES OE ARE IAS (例如 ， 可 以 尝试 多 次 将 图 像 的 尺寸 减 半 )。 
对 每 幅 图 像 提 取 SIFT 特征 。 绘 制 以 及 匹配 特征 ， 来 发 现 尺 度 的 独立 性 是 如 何以 
及 何 时 失效 的 。 

(5) VLFeat 命令 行 工 具 同 样 实现 了 最 大 稳定 极 值 区 域 (MSER,， http://en.wikipedia. 
org/wiki/Maximally_stable_extremal_regions) 算法 。 该 算法 是 个 能 够 找到 角 
点 一 侧 区 域 的 区 域 检 测 强 。 创 建 一 个 用 于 提取 MSER 区 域 的 函数 ， 然 后 使 用 
-read-frames 选项 将 它们 传递 给 SIFT 特征 描述 子 部 分 ， 最 后 写 出 一 个 用 于 绘制 
该 区 域 边 界 的 国 数 。 

(6) 基于 对 应 关系 ， 写 出 在 图 像 对 间 匹 配 特 征 的 国 数 ， 以 实现 估计 尺度 差异 以 及 场景 
的 平面 旋转 。 

(7) 任意 选取 一 个 位 置 ， 然 后 下 载 该 位 置 的 图 像 ， 像 白 言 例子 一 样 将 它们 匹配 起 来 。 
你 能 发 现 用 于 连接 这 些 图 像 的 更 好 方式 吗 ? 你 是 如 何 利 用 图 来 选取 用 于 地 理 位 置 
具有 代表 性 的 图 像 的 ? 
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图 像 到 图 像 的 映射 





本 半 讲 解 图 像 之 间 的 变换 ， 以 及 一 些 计 算 变 换 的 实用 方法 。 这 些 变 换 可 以 用 于 图 像 
扭曲 变形 和 图 像 配 准 。 最 后 ， 我 们 将 会 介绍 一 个 目 动 创建 全 景 图像 的 例子 。 


3.1 里 应 性 变换 


单 应 性 变换 是 将 一 个 平面 内 的 点 上 映射 到 田 一 个 平面 内 的 二 维 投影 变换 。 在 这 里 ， 平 
面 是 指 图 像 或 者 三 维 中 的 平面 表面 。 单 应 性 变换 具有 很 剖 的 实用 性 ， 比 如 图 像 配 准 、 
图 像 纠 正和 纹理 扭曲 ， 以 及 创建 全 景 图 像 。 我 们 将 频 葵 地 使 用 单 应 性 变换 。 本 质 上 ， 
单 应 性 变换 及， 按照 下 面 的 方程 映射 二 维 中 的 点 〈 齐 次 坐标 意义 下 ) : 





/ 
X 








hi hy hy X 
y = ha h; he y 或 x’ — Hx 
w h hs ho WwW 














对 于 图 像 平面 内 (其 至 是 三 维 中 的 点 ， 后 面 我 们 会 介绍 到 ) WR, FRE 
标 是 个 非常 有 用 的 表示 方式 。 点 的 齐 次 坐标 是 依赖 于 其 尺度 定义 的 ， 所 以 ， 
x=[x,y,w]=[ax,ay,aw]=[x/w,y/w, 1] 都 表示 同一 个 三 维 点 。 因 此 ， 单 应 性 矩阵 五 也 仪 
依赖 尺度 定义 ， 所 以 ， 单 应 性 和 矩阵 具有 8 个 独立 的 自由 度 。 我 们 通常 使 用 w=1 来 归 
一 化 点 ， 这 样 ， 点 具有 唯一 的 图 像 坐标 x 和 y。 这 个 额外 的 坐标 使 得 我 们 可 以 简单 
地 使 用 一 个 矩阵 来 表示 变换 。 


创建 homography.py 文件 。 下 面 的 函数 可 以 实现 对 点 进行 归 一 化 和 转换 齐 次 坐标 的 
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功能 ， 将 其 添加 到 homography.py 文件 中 : 


def normalize(points): 
In 在 齐 次 坐标 意义 F, 对 点 集 进 行 归 一 化 ， 使 最 后 一 行为 和 


for row in points: 





row /= points[-1] 
return points 


def make_homog (points): 
"将 点 集 (dimxn 的 数组 ) 转换 为 齐 次 坐标 表示 """ 


return vstack((points,ones((1,points.shape[1])))) 


进行 点 和 变换 的 处 理 时 ， 我 们 会 按照 列 优先 的 原则 存储 这 些 点 。 因 此 ,nn 个 二 维 扣 
集 将 会 存储 为 齐 次 坐标 意义 下 的 一 个 3 xn 数组。 这 种 格式 使 得 矩阵 乘法 和 点 的 变换 
操作 更 加 容 多 。 对 于 其 他 的 例子 ， 比 如 对 于 聚 类 和 分 类 的 特征 ， 我 们 将 使 用 典型 的 
行 数 组 来 存储 数据 。 


在 这 些 投影 变换 中 ， 有 一 些 特别 重要 的 变换 。 比 如 ， 念 射 变换 : 











d a t X l A f 
y |=|% Aa l; y 或 x 一 0 1 X 
l 00 1j|l 























保持 了 w=1, 不 具有 投影 变换 所 具有 的 强大 变形 能 力 。 仿 射 变换 包含 一 个 可 逆 矩 阵 4 
和 一 个 平移 向 量 三 [4w4,]。 仿 射 变换 可 以 用 于 很 多 应 用 ， 比 如 图 像 扭曲 。 


相似 变换 : 





x’) [scos(@) -ssin(O t.][x Ri 
y|=|ssin(0) scos(@) t|ly 或 XS i i 
1 0 0 1jll 























E — ELEN EE (CY EWI A eR, EKRE s FRE S ERRE, REM 
BEA) O 的 旋转 矩阵， 大 [区 在 这 里 也 走 一 个 平移 同 量 。 如 采 s=1， 那 么 该 变换 能 够 
保持 距离 不 变 。 此 时 ， 杰 换 为 刚体 变换 。 相 似 变 换 可 以 用 于 很 多 应 用 ， 比 如 图 像 
ACE 

下 面 让 我 们 一 起 探讨 如 何 设计 用 于 佑 计 单 应 性 矩阵 的 算法 ， 然 后 看 一 下 使 用 仿 射 变 
换 进 行 图 像 扭 曲 ， 使 用 相似 变换 进行 图 像 匹 配 ， 以 及 使 用 完全 投影 变换 进行 创建 全 
x ERAT —2E BIT 











3.1.1 直接 线性 变换 算法 

单 应 性 矩阵 可 以 由 两 幅 图 像 (或 者 平面 ) 中 对 应 点 对 计算 出 来 。 前 面 已 经 提 到 过 ， 
一 个 完全 射影 变换 具有 8 个 自由 度 。 根 据 对 应 点 约束 ， 每 个 对 应 点 对 可 以 写 出 两 个 
方程 ， 分 别 对 应 于 x Aly 坐标。 因此 ， 计 算 单 应 性 矩阵 万 需 要 4 个 对 应 点 对 。 


DLT (Direct Linear Transformation， 直 接线 性 变换 ) 是 给 定 4 个 或 者 更 多 对 应 点 对 
算 了 泗 ， 来 计算 单 应 性 矩阵 五 的 算法 。 将 单 应 性 矩阵 五 作用 在 对 应 点 对 上 ， 重 新 写 出 
该 方程 ， 我 们 可 以 得 到 下 面 的 方程 : 


-x -y -1 0 0 0 xxi yx xih 
0 0 0 -x -y -1 myi wy yillh 
-x -y -1 0 0 0 mx yx xə||hs|=0 
0 0 O =x. =y: -1 mys yy ylhe 








或 者 4h=0， 其 中 A 是 一 个 具有 对 应 点 对 二 倍数 量 行 数 的 矩阵 。 将 这 些 对 应 点 对 方 
程 的 系数 堆 释 到 一 个 矩阵 中 ， 我 们 可 以 使 用 SVD (Singular Value Decomposition, 
奇异 值 分 解 ) 算法 找到 五 的 最 小 二 乘 解 。 下 面 是 该 算法 的 代码 。 将 下 面 的 商 数 添加 
到 homography.py 文件 中 : 





def H from points(fp,tp): 
"使 用 线性 DLT 方 法， 计算 单 应 性 矩阵 H， 使 fp 映射 到 tp。 点 自动 进行 归 -一 化 "" 


if fp.shape != tp.shape: 
raise RuntimeError('number of points do not match') 


# 对 点 进行 归 一 化 (对 数值 计算 很 重要 ) 

# --- 映射 起 始点 --- 

m = mean(fp[:2], axis=1) 

maxstd = max(std(fp[:2], axis=1)) + 1e-9 
C1 = diag([1/maxstd, 1/maxstd, 1]) 
C1[O][2] = -m[O]/maxstd 

Ca[41][2] = -m[1]/maxstd 

To S dou CiTD) 


# --- 映射 对 应 点 --- 
m = mean(tp[:2], axis=1) 
maxstd = max(std(tp[:2], axis=1)) + 1e-9 
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iag([1/maxstd, 1/maxstd, 1]) 
2] = -m[O]/maxstd 








# 创建 用 于 线性 方法 的 矩阵 ， 对 于 每 个 对 应 对 ， 在 矩阵 中 会 出 现 两 行 数值 
nbr correspondences = fp.shape[1] 
A = zeros((2*nbr correspondences,9)) 
for i in range(nbr correspondences): 
A[2*i] = [-fp[o][i], -fp[1][i],-1,0,0,0, 


tp[o][ij*fplol[lil,tp[o]lil*fp[1][i],tpLollil]] 
A[2*i+1] = FOO Dolo [sero di Lis 
tpl pl ol tp ip lt [i] 


U,S,V = linalg.svd(A) 
H = V[8].reshape((3,3)) 


# RIA 
H = dot(linalg.inv(C2),dot(H,C1) ) 


# 归 一 化 ， 然 后 返回 
return H / H[2,2] 


EE EB ASC AY) E — Fe BR TE ee ok OT BS RE P ae ee AT]. AAS A AA ad , 
RACHA TO ea eB. ROTTS AREA RAS RIE AA. (Ase, H TER 
码 例子 更 简单 、 更 容易 理解 ， 我们 在 本 书 中 仅 在 很 少 的 例子 中 使 用 异常 处 理 技巧 。 
你 可 以 在 http://docs.python.org/library/exceptions.html 查阅 更 多 关于 异 第 类 型 的 内 
容 ， 以 及 在 http://docs.python.org/tutorial/errors.html 上 了 解 如 何 使 用 它们 。 


对 这 些 氮 进 行 归 一 化 操作 ， 使 其 均值 为 0， 方 兰 为 1。 因为 算法 的 稳定 性 取决 于 坐 
标的 表示 情况 和 部 分 数值 计算 的 问题 ， 所 以 归 一 化 操作 非常 重要 。 接 下 来 我 们 使 用 
对 应 反对 来 构造 矩阵 4。 最 小 二 乘 解 即 为 矩阵 SVD 分 解 后 所 得 矩阵 这 的 最 后 一 行 。 
该 行经 过 变形 后 得 到 算 阵 瓦 。 然 后 对 这 个 矩阵 进行 处 理 和 归 一 化 ， 返 回答 出 。 





3.1.2 AHEJ 

由 于 仿 射 变换 有 具有 OT ABE, WERTERA TR i TBE H. RY 
最 后 两 个 元 和 素 设 置 为 0， 即 万 =Ans=0， 仿 射 变 换 可 以 用 上 面 的 DLT 算法 佑 计 得 出 。 
这 里 我 们 将 使 用 不 同 的 方法 来 计算 单 应 性 算 阵 有 ,这 在 文献 [13] 中 有 详细 的 描 
述 (第 130 页)。 下 面 的 函数 使 用 对 应 点 对 来 计算 仿 射 变换 和 矩阵， 将 其 添加 到 
homograph.py 文件 中 : 








入 和 
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def Haffine from points(fp,tp): 
“LL H, (EHR, HE tp 是 fp 经 过 仿 射 变换 H 得 到 的 """ 


if fp.shape != tp.shape: 
raise RuntimeError('number of points do not match') 


E 对 点 进行 归 一 化 

# --- 映射 起 始点 --- 

m = mean(fp[:2], axis=1) 

maxstd = max(std(fp[:2], axis=1)) + 1e-9 
C1 = diag([1/maxstd, 1/maxstd, 1]) 
C1[O][2] = -m[O]/maxstd 

C1[1][2] = -m[1]/maxstd 

fp cond = dot(C1, fp) 


# --- 映射 对 应 点 --- 

m = mean(tp[:2], axis=1) 

C2 = C1.copy() # 两 个 点 集 ， 必 须 都 进行 相同 的 缩放 
C2[0][2] = -m[O]/maxstd 

C2[1][2] = -m[1]/maxstd 

tp cond = dot(C2,tp) 


# 因为 归 一 化 后 点 的 均值 为 0， 所 以 平移 量 为 0 
A = concatenate((fp_cond[:2],tp cond[:2]), axis=0) 
USV a linale .svd(A. TL) 


# 4M Hartley 和 Zisserman 4A Multiple View Geometry in Computer, Scond Edition 所 示 ， 
# GEA B AI C 


tmp Se V2) 20 
B = tmp[:2] 
C = tmp[2:4] 


tmp2 = concatenate((dot(C, linalg.pinv(B)),zeros((2,1))), axis=1) 
H = vstack((tmp2,[0,0,1])) 


# KeVA—tt 
H = dot(linalg.inv(C2),dot(H, (C1) ) 


return H / H[2,2] 


同样 地 ， 类 似 于 DLT BG, RAEN BAMA RE. EP, 
让 我 们 一 起 来 看 这 些 仿 射 变换 站 如 何 处 理 图 像 的 。 


3.2 图像 扭曲 


对 图 像 块 应 用 仿 射 变 换 ， 我 们 将 其 称 为 图 像 捏 曲 〈 或 者 仿 射 捏 曲 ) 。 该 操作 不 仅 经 
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BMA RALABe, MAA RL oe eK. H BRE BT DE 
Scipy 工具 包 中 的 ndimage 包 来 简单 完成 。 命 令 


transformed im = ndimage.affine transform(im,A,b,size) 


使 用 如 上 所 示 的 一 个 线性 变换 4 和 一 个 平移 癌 量 5b 来 对 图 像 块 应 用 仿 冉 变换 。 选 项 
参数 size 可 以 用 来 指定 输出 图 像 的 大 小 。 上 默认 输出 图 像 设 置 为 和 原始 图 像 同样 大 
小 。 为 了 研究 该 国 数 是 如 何 工作 的 ， 我 们 可 以 试 着 运行 下 面 的 命令 


from Scipy import ndimage 


im = array(Image.open('empire.jpg').convert('L')) 
H = array([[1.4,0.05,-100],[0.05,1.5,-100],[0,0,1]]) 
im2 = ndimage.affine transform(im,H[:2,:2], (H[O,2],H[1,2])) 


figure() 


gray() 
imshow(im2 ) 
show( ) 


该 命令 输出 结 末 图 像 如 图 3-1 ( 右 ) 所 示 。 可 以 看 到 ， 输 出 图 像 结 东 中 丢失 的 像素 用 
FRET., 











3-1: 用 仿 射 变换 扭曲 图 像 。 原 始 图 像 (AS) 以 及 使 用 ndimage.affine transform() HA 
扭曲 后 的 图 像 (68) 





3.2.1 图 像 中 的 图 像 
仿 射 扭曲 的 一 个 简单 例子 是 ， 将 图 像 或 者 图 像 的 一 部 分 放置 在 另 一 幅 图 像 中 ， 使 得 
它们 能 够 和 指定 的 区 域 或 者 标记 物 对 齐 。 


将 函数 image in image() 添加 到 warp.py 文件 中 。 该 函数 的 输入 参数 为 两 幅 图 像 和 
一 个 坐标 。 该 坐标 为 将 第 一 幅 图 像 放 置 到 第 二 幅 图 像 中 的 角 点 坐标 : 


def image in image(im1,im2,tp): 
""" 使 用 仿 射 变换 将 ima 放置 在 im E, tE im 图 像 的 角 和 tp 尽 可 能 的 靠近 
tp 是 齐 次 表示 的 ， 并 且 是 按照 从 左上 角 逆 时 针 计 算 的 "” 


# 扭曲 的 点 
m,n = im1.shape[:2]| 
fp = array( lomo Lo Oem le Dy tt 


# 计算 仿 射 变换 ， 并 且 将 其 应 用 于 图 像 im 

H = homography.Haffine from points(tp,fp) 

im1 t = ndimage.affine transform(im1,H[:2,:2], 
(H[0,2],H[1,2]),im2.shape[ :2]) 

alpha = (im1 t > 0) 


return (1-alpha)*im2 + alpha*im1 t 





TER PRA ABI, TARA AIRS SARA ERE. EH h YRS ek Ra, 
我 们 就 创建 了 alpha 图像 。 该 图 像 定义 了 每 个 像素 从 各 个 图 像 中 敖 取 的 像素 值 成 分 
多 少 。 这 里 我 们 基于 以 下 事实 ， 扭 曲 的 图 像 是 在 扭曲 区 域 边 界 之 外 以 0 来 填充 的 图 
像 ， 来 创建 一 个 二 值 的 alpha 图 像 。 严 格 意 义 上 说 ， 我 们 需要 在 第 一 幅 图 像 中 的 入 
在 0 像素 上 加 上 一 个 小 的 数值 ， 或 者 合理 地 处 理 这 些 0 像素 (参见 本 章 结 尾 的 练习 
部 分 )。 注 意 ， 这 里 我 们 使 用 的 图 像 坐标 是 齐 次 坐标 意义 下 的 。 


试 着 使 用 该 函数 将 公告 牌 中 的 一 幅 图 像 插 入 男 一 幅 图 像 。 下 面 几 行 代码 会 将 图 3-2 
中 最 左 端的 图 像 揪 入 到 第 二 幅 图 像 中 。 这 些 坐 标 值 是 通过 查看 绘制 的 图 像 〈 在 PyLab 
图 像 中 ， 鼠 标的 坐标 显示 在 图 像 的 部 附近 ) 手工 确定 的 。 当 然 ， 也 可 以 用 PyLab 类 
库 中 的 ginput() 函数 获得 。 
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图 3-2: 使 用 仿 射 变换 将 一 幅 图 像 放 置 到 另 一 幅 图 像 中 
import warp 


# 仿 射 扭曲 ima 到 im2 的 例子 
im1 = array(Image.open('beatles.jpg').convert('L')) 
im2 = array(Image.open('billboard for rent.jpg' ).convert('L')) 


# 选 定 一 些 目标 点 
tp = array([[264,538,540,264],[40,36,605,605],[1,1,1,1]]) 


im3 = warp.image in image(im1,im2,tp) 


figure() 
gray() 
imshow(im3) 
axis('equal' ) 
axis('off') 
show() 


上 面 的 代码 将 图 像 放置 在 公告 牌 的 上 半 部 分 。 需 要 注意 ， 标 记 物 的 坐标 tp 是 用 齐 次 
坐标 意义 下 的 坐标 表示 的 。 将 这 些 坐 标 换 成 : 


tp = array([[675,826,826,677],[55,52,281,277], [1,1,1,1]]) 
会 将 图 像 放 置 在 公告 牌 的 左下 “for rent” #34. 


国 数 Haffine from points() 会 返回 给 定 对 应 点 对 的 最 优 仿 射 变换 。 在 上 面 的 例子 
中 ， 对 应 点 对 为 图 像 和 公告 牌 的 角 点 。 如 末 透 视 效 应 比较 弱 ， 那 么 这 种 方法 会 返回 
很 好 的 结果 。 图 3-3 的 上 面 一 行 显示 出 ， 在 具有 很 强 透 视 效 应 的 情况 下 ， 在 公告 牌 
图 像 上 使 用 射影 变换 输出 图 像 的 情况 。 在 这 种 情况 下 ， 我 们 不 可 能 使 用 同一 个 仿 射 
变换 将 全 部 4 个 角 点 变换 到 它们 的 目标 位 置 (尽管 我 们 可 以 使 用 完全 投影 变换 来 完 
成 该 任务 ) 。 所 以 ， 当 你 打算 使 用 仿 射 变换 时 ， 有 一 个 很 有 用 的 技巧 。 
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图 3-3: 比较 完全 图 像 的 仿 射 扭曲 和 使 用 两 个 三 角形 的 仿 射 这 曲 效果 。 图 像 放 置 在 公告 牌 上 ，， 
并 且 市 有 一 些 透 视 效应 。 对 于 整 幅 图 像 使 用 仿 射 担 曲 效果 不 好 。 为 了 看 清楚 ， 我 们 将 右边 的 
两 个 角 点 放大 (上 )。 使 用 包含 两 个 三 角形 的 仿 射 变换 可 以 很 好 地 将 图 像 完 全 放置 到 公告 牌 
tis) 


WaT, TNE AT A — tie RRETH, BEX SORT ORY BY LA Se Se HE BE 
AL. EAA, TRA A OT ARE, =P Oe aT Aaa 6 个 约束 条 件 
(对 于 这 三 个 对 应 点 对 ,x 和 了 坐标 必须 都 要 匹配 )。 所 以 ， 如 本 你 真 的 打算 使 用 仿 
射 变换 将 图 像 放置 到 公告 牌 上 ， 可 以 将 图 像 分 成 两 个 三 角形 ， 然 后 对 它们 分 别 进行 
扭曲 图 像 操 作 。 下 面 征 具体 实现 的 代码 : 

# 选 定 ima 角 上 的 一 些 点 

m,n = im1.shapel :2] 


fp 本 array (Llo mm0 | [0,054] 5 [451541] ]) 


# B= fe 


Ep2 = 1p 2523) 
To? = fpi] 
# 计算 H 


H = homography.Haffine from points(tp2, fp2) 
imi t = ndimage.affine transform(im1,H[:2,:2], 
(H[0,2],H[1,2]),im2.shape[ :2]) 


# 三 角形 的 alpha 
alpha = warp.alpha for triangle(tp2,im2.shape[0],im2.shape[1]) 
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im3 = (1-alpha)*im2 + alpha*im1 t 


# BoP =A 
tp2 一 toles Os 25354 
fp2 一 | 


# 计算 中 

H = homography.Haffine from points(tp2,fp2) 

im1 t = ndimage.affine transform(im1,H[:2,:2], 
(H[0,2],H[1,2]),im2.shape[ :2]) 


# 三 角形 的 alpha EUR 
alpha = warp.alpha for triangle(tp2,im2.shape[0],im2.shape[1]) 
im4 = (1-alpha)*im3 + alpha*im1 t 


figure() 


gray() 
imshow(im4) 
axis('equal' ) 
axis('off') 
show( ) 


这 里 我 们 简单 地 为 每 个 三 角形 创建 了 alpha 图 像 ， 然 后 将 所 有 的 图 像 合 并 起 来 。 该 三 
角形 的 alpha 图 像 可 以 人 简单 地 通过 检查 像素 的 坐标 是 否 能 够 写成 三 角形 顶点 坐标 的 册 
组 合 来 计算 得 出 。 如 果 坐 标 可 以 表示 成 这 种 形式 ， 那 么 该 像素 就 位 于 三 角形 的 内 部 。 
上 面 的 例子 使 用 了 下 面 的 函数 alpha for triangle), KJE] warp.py 文件 中 。 





def alpha for triangle(points,m,n): 
""" 对 于 带 有 由 points 定义 角 点 的 三 角形 ， 创 建 大 小 为 (m, n) 的 alpha 
(在 归 一 化 的 齐 次 坐标 意义 下 )""" 


alpha = zeros((m,n)) 
for i in range(min(points[0]),max(points[0])): 
for j in range(min(points[1]),max(points[1])): 
x = linalg.solve(points, [i,j,1]) 
if min(x) > 0: # 所 有 系数 都 大 于 零 
alphal si. J| 4 
return alpha 


你 的 显卡 可 以 极其 快速 地 操作 上 面 的 代码 。Python 语言 的 处 理 速 度 比 你 的 显卡 (或 
者 C/C++ 实现 ) 慢 很 多 ， 但 是 对 于 我 们 来 说 已 经 够 用 了 。 正 如 在 图 3-3 下 半 部 分 所 
看 到 的 ， 角 点 可 以 很 好 地 匹配 。 


注 1: 四 组 合 是 形式 为 Qjx 的 线性 组 合 (在 三 角形 的 例子 中 ), 其 中 所 有 的 系数 a 非 负 , 并 且 和 为 1。 
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3.2.2 分 段 仿 射 扭曲 

正如 上 面 的 例子 所 示 ， 三 角形 图 像 块 的 仿 射 扭曲 可 以 完成 角 点 的 精确 匹配 。 让 我 们 
看 一 下 对 应 点 对 集合 之 则 最 和 沼 用 的 扭曲 方式 : 分 段 仿 射 捏 曲 。 给 定 任 意图 像 的 标记 
点 ， 通 过 将 这 些 点 进行 三 角 剖 分 ， 然 后 使 用 仿 射 扭曲 来 扭曲 每 个 三 角形 ， 我 们 可 以 
将 图 像 和 另 一 幅 图 像 的 对 应 标记 点 扭曲 对 应 。 对 于 任何 图 形 和 图 像 处理 库 来 说 ， 这 
些 者 是 最 基本 的 操作 。 下 面 我 们 来 钞 示 一 下 如 何 使 用 Matplotlib 和 SciPy 来 完成 该 
操作 。 


为 了 三 角 化 这 些 点 ， 我 们 经 常 使 用 狄 洛克 三 角 训 分 方法 。 在 Matplotlip (但 是 不 在 
PyLab 库 中 ) 中 有 狄 洛克 三 角 剖 分， 我 们 可 以 用 下 面 的 方式 使 用 它 : 





import matplotlib.delaunay as md 


x,y = array(random.standard normal((2,100))) 
centers,edges,tri,neighbors = md.delaunay(x,y) 


figure() 

FOX E Tm EII 
t ext = [t[o] 
plot(x[t_ext ] 


t[1], t[2], tlo]] # 将 第 一 个 点 加 入 到 最 后 
VL text] yr") 


PLOECH y] 

axis('off') 

show() 
3-4 ean SHES ILA A= FAIR. BKK oe = FAH a7 ee FE — 2S = PAE, 
(i = FA HE BTA = FATE eb FA RA o KZ delaunay() 有 4 个 输出 ， 其 中 
我 们 仅 需 要 三 角形 列表 信息 (第 三 个 输出 )。 在 warp.py 文件 中 创建 用 于 三 角 剖 分 
的 国 数 : 


import matplotlib.delaunay as md 


def triangulate points(x,y): 
Wie 二 维 点 的 Delaunay = FAI Wied 


centers,edges, tri,neighbors = md.delaunay(x,y) 
return tri 


pA Acim HH AY ez — AH, ABE A a: — 1 E ARH x 和 y Fa = IB = 
OF 


注 1: 三 角 剂 分 中 的 边 实 际 上 是 泰 森 图 的 对 偶 图 。 参 见 http://en.wikipedia.org/wiki/Delaunay_triangulation。 
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3-4: 随机 二 维 点 集 的 狄 洛克 三 角 剖 分 示例 


现在 让 我 们 将 该 算法 应 用 于 一 个 例子 ， 在 该 例子 中 ,在 Sx6 的 网 格 上 使 用 30 个 控 
制 点 ， 将 一 幅 图 像 扭 曲 到 另 一 幅 图 像 中 的 非 平 坦 区 域 。 图 3-5b 所 示 的 是 将 一 幅 图 像 
扭曲 到 “turning torso” 的 表面 。 目 标点 是 使 用 ginput() 国 数 手 工 选 取出 来 的 ， 将 结 
果 保 存在 turningtorso_points.txt 文件 中 。 


首先 ， 我 们 需要 写 出 一 个 用 于 分 段 仿 射 图 像 扭 曲 的 通用 扭曲 函数 。 下 面 的 代码 可 以 
实现 该 功能 。 在 该 代码 中 ， 我 们 也 展示 了 如 何 扭 曲 一 幅 彩 色 图 像 (你 仅 需 要 对 每 个 
颜色 通道 进行 扭曲 )。 
def pw affine(fromim, toim, fp,tp, tri): 
"e 从 一 幅 图 像 中 扭曲 矩形 图 像 块 

fromim= 将 要 扭曲 的 图 像 

toim= 目标 图 像 

fp- 齐 次 坐标 表示 下 ， 扭 曲 前 的 点 

tp- 齐 次 坐标 表示 下 ， 扭 曲 后 的 点 


tri- 三 角 谢 分 """ 
im = toim.copy() 


# Aor (Re A IE Beak #2 2 Ad 


is color = len(fromim.shape) == 


# 创建 扭曲 后 的 图 像 (如 果 需 要 对 彩色 图 像 的 每 个 颜色 通道 进行 迭代 操作 ， 那 么 有 必要 这 样 做 ) 


im t = zeros(im.shape, ‘uint8') 


TOL T UEL 
# 计算 仿 射 变换 
H = homography.Haffine from points(tp[:,t],fp[:,t]) 


Lf Is- Color: 
for col in range(fromim.shape[2]): 
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im t[:,:,col] = ndimage.affine transform( 
FLOM sc COLA 22552 (Ho 21, ty 2) )ameshape| :| 
else: 
im t = ndimage.affine transform( 
fromim | -2322 |; (HLO;2 13H12 |); im: shape +21) 


# 三 角形 的 alpha 
alpha = alpha for triangle(tp[:,t],im.shape[0],im.shape[1]) 


# 将 三 角形 加 入 到 图 像 中 
im[alpha>0] = im t[alpha>o] 


return im 


在 该 代码 中 ， 我 们 首先 检查 该 图 像 是 灰 度 图 像 还 是 彩色 图 像 。 如 果 图 像 为 彩色 图 像 ， 
则 对 每 个 颜色 通道 进行 扭曲 处 理 。 因 为 对 于 每 个 三 角形 来 说 ， 仿 射 变 换 是 唯一 确定 
的 ， 所 以 我 们 这 里 使 用 Haffine from points() 国 数 来 处 理 。 将 上 面 的 国 数 语 加 到 


warp.py 文件 中 。 


为 了 将 该 函数 应 用 到 当前 例子 中 ， 接 下 来 的 简短 脚本 将 这 些 操 作 统 一 起 来 : 


import homography 
import warp 


# 打开 图 像 ， 并 将 其 扭曲 

fromim = array(Image.open('sunset tree.jpg )) 
x,y = meshgrid(range(5),range(6)) 

x = (fromim.shape[1]/4) * x.flatten() 

y = (fromim.shape[0]/5) * y.flatten() 


# = faala 
tri = warp.triangulate_points(x,y) 


# TTT AURA te 
im = array(Image.open('turningtorso1. jpg')) 
tp = loadtxt('turningtorso1 points.txt') # destination points 


# 将 点 转换 成 齐 次 坐标 
fp = vstack((y,x,ones((1, len(x))))) 
tp = vstack((tp[:,1],tp[:,0],ones((1, len(tp))))) 


# 扭曲 三 角形 


im = warp.pw_affine(fromim, im, fp, tp, tri) 
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# 绘制 图 像 

figure() 

imshow(im) 

warp.plot mesh(tp[1],tp[0], tri) 
axis('off') 

show( ) 


输出 结果 如 图 3-5c 所 示 。 我 们 通过 下 面 的 辅助 函数 (将 其 添加 到 warp.py 文件 中 ) 
来 绘制 出 图 像 中 的 这 些 三 角形 : 


def plot mesh(x,y,tri): 
Wit 绘制 三 角形 unun 


Tor tin tri: 
t ext = [t[o], t[1], t[2], t[o]] # 将 第 一 个 点 加 入 到 最 后 
plot(x[t_ext],y[t_ext], 'r') 
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图 3-5: 使 用 狄 洛克 三 角 剖 分 标记 点 进行 分 段 仿 射 担 曲 :，(a) 为 带 有 标记 物 的 目标 图 像 ，(b) 
为 珊 有 三 角 副 分 的 图 像 ，(c) 为 担 曲 后 的 图 像 ，(d) 为 市 有 三 角 训 分 的 扭曲 图 像 


这 个 例子 应 该 能 够 帮助 你 在 应 用 中 做 图 像 的 分 段 仿 射 扭 曲 。 我 们 可 以 对 该 例子 中 的 
国 数 进 行 改 进 。 我 们 将 其 中 一 部 分 留 作 练习 ， 剩 下 的 留 给 你 上 自己 解决 。 


3.2.3 图像 配 准 

图 像 配 准 是 对 图 像 进 行 变换 ， 使 变换 后 的 图 像 能 够 在 常见 的 坐标 系 中 对 齐 。 配 准 可 
以 是 严格 配 准 ， 也 可 以 是 非 严 格 配 准 。 为 了 能 够 进行 图 像 对 比 和 更 精细 的 图 像 分 析 ， 
图 像 配 准 是 一 步 非 常 重 要 的 操作 。 


让 我 们 一 起 看 一 个 对 多 个 人 脸 图 像 进行 严格 配 准 的 例子 。 该 配 准 使 得 我 们 计算 的 平 
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均 人 腔 和 人 脸 表 观 的 变化 具有 意义 。 因 为 ， 图 像 中 的 人 脸 并 不 都 有 相同 的 大 小 、 位 
置 和 方 同 ， 所 以 ， 在 这 种 类 型 的 配 准 中 ， 我 们 实际 上 是 寻找 一 个 相似 变换 《〈 带 有 尺 
度 变化 的 刚体 变换 ) ， 在 对 应 点 对 之 间 建 立 映 射 。 


在 jkface.zip 文件 中 有 366 幅 单 人 图 像 (2008 年 ， 每 天 一 幅 )。 这 些 图 像 都 对 眼睛 
和 嘴 的 坐标 进行 了 标记 ， 结 果 保 存在 jkface.xml 文件 中 。 使 用 这 些 点 ,我 们 可 以 计 
算出 一 个 相似 变换 ， 然 后 将 可 以 使 用 该 变换 (包含 尺度 变换 ) 的 这 些 图 像 扭 曲 到 一 
个 归 一 化 的 坐标 系 中 。 为 了 读 取 XML 格式 的 文件 ， 我 们 将 会 使 用 Python 中 内 置 
xml.dom 模块 中 的 minidom 类 库 。 


该 XML 文件 看 起 来 类 似 于 下 面 的 格式 : 








<?xml version="1.0" ”encoding= utf-8 ?> 

<faces> 
<face file="jk-002.jpg" xf="46" xm="56" xs="67" yf="38" ym="65" ys="39"/> 
<face file="jk-006.jpg" xf="38" xm="48" xs="59" yf="38" ym="65" ys="38"/> 
<face file="jk-004. jpg" xf="40" xm="50" xs="61" yf="38" ym="66" ys="39"/> 
<face file="jk-010.jpg" xf="33" xm="44" xs="55" yf="38" ym="65" ys="38"/> 


</faces> 


为 了 从 该 文件 中 读 取 这 些 坐 标 ， 我 们 需要 将 使 用 minidom 的 函数 添加 到 新 文件 
imregistration.py 中 : 


from xml.dom import minidom 


def read points from xml(xmlFileName) : 


" 读 取 用 于 人 脸 对 齐 的 控制 点 """ 


xmldoc = minidom.parse(xmlFileName) 
facelist = xmldoc.getElementsByTagName('face') 
faces = {} 
for xmlFace in facelist: 
fileName = xmlFace.attributes|'file'].value 
xf = int(xmlFace.attributes['xf'].value) 


yf = int(xmlFace.attributes['yf'].value) 

xs = int(xmlFace.attributes['xs'].value) 

ys = int(xmlFace.attributes['ys'].value) 

xm = int(xmlFace.attributes['xm'].value) 
[ ym ] 


ym = int(xmlFace.attributes .value) 


‘ym’ 
faces[fileName] = array([xf, yf, xs, ys, xm, ym]) 


return faces 


iE 1: 这 些 图 像 是 由 J. K. Keller (经 过 许可 ) 提供 的 ， 详 情 参 见 http://jk-keller.com/daily-photo/。 
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这 些 标记 点 会 在 Python 中 以 字典 的 形式 返回 ， 字 ~ 典 的 键 值 为 图 像 的 文件 名 。 格 式 
为 : 图 像 中 左 眼 (人 脸 右 侧 ) 的 坐标 为 xf 和 yf， 右 眼 的 坐标 为 xs 和 ys， 嘴 的 坐标 
为 xm 和 ym。 为 了 计算 相似 变换 中 的 参数 ， 我 们 可 以 使 用 最 小 二 乘 解 来 解决 。 对 于 
每 个 点 xex, yl (在 这 个 例子 中 ， 每 幅 图 像 有 三 个 点 )， 这 些 点 应 该 被 映射 到 目标 位 
置 [%, yj] ， 如 下 所 示 : 








a) 
“Ip a 


Xi 
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将 这 三 个 点 都 表示 成 该 形式 ， 我 们 可 以 重新 将 其 写成 方程 组 的 形式 。 该 方程 组 中 含 
fia, by t RAR, WFAA: 


XxX| [x -y 1 0 
Vi YX) xX 0 lila 
| |x -yy 1 0l|b 
J 7 YV X2 0 lyin 
X3| lx =y: 1 0 
ys| yx x 01 


TARERE BEEREK RIN: 


a -b| |cos(0) —sin(@) 


wal lane), sor 














其 中 尺度 s = Ya’ +b ， 旋 转 矩 阵 为 R。 


如 果 存 在 更 多 的 对 应 点 对 ， 其 计算 公式 相同 ， 只 需 在 矩阵 中 额外 添加 几 行 。 你 可 以 
使 用 linalg.1stsq() 国 数 来 计算 该 问题 的 最 小 二 乘 解 。 使 用 最 小 二 乘 解 的 思 外 下 
个 标准 技巧 ， 我 们 还 会 在 本 书 中 多 次 使 用 。 实 际 上 ， 这 和 之 前 在 DLT 算法 中 使 用 的 
方式 相同 。 


函数 的 具体 代码 如 下 (将 其 添加 到 imregistration.py 文件 中 ) : 





from scipy import linalg 


def compute rigid transform(refpoints, points): 


"" 计算 用 于 将 点 对 齐 到 参考 点 的 旋转 、 尺 度 和 平移 量 """ 


A = array([ [points[0], -points[1], 1, O], 
[points[1], points[0], 0, 1], 
[points[2], -points[3], 1, 0], 
[points[3]5. <points|[2)5.°05~4]5 





[points[4], -points[5], 1, 0], 
[points[5], points[4], 0, 1]]) 


y = array([ refpoints[0o], 
refpoints[1], 
refpoints[2], 
refpoints|3 | 

[4] 

[5] 


refpoints[4 


J 


]) 


refpoints|5 
# 计算 最 小 化 | |Ax-y| | 的 最 小 二 乘 解 
a,b,tx,ty = linalg.1stsq(A,y) [0] 
R = array([[a, -b], [b, a]]) # 包含 尺度 的 旋转 矩阵 


ETUA Rs txsty 





该 函数 返回 一 个 具有 尺度 的 旋转 算 了 泗 ， 以 及 在 x 和 >》 方 癌 上 的 平移 量 。 为 了 扭曲 图 
像 ， 并 保存 对 齐 后 的 新 图 像 ， 我 们 可 以 对 每 个 颜色 通道 (这 些 图 像 都 是 彩色 图 像 ) 
应 用 ndimage.affine transform() 图 数 操 作 。 作 为 参 芳 坐标 系 ， 你 可 以 使 用 任何 三 
个 点 的 坐标 。 这 里 我 们 为 了 简单 起 见 ， 直 接 使 用 第 一 幅 图 像 中 的 标记 位 置 : 


from Scipy import ndimage 
from scipy.misc import imsave 
import os 


def rigid alignment (faces, path, plotflag=False): 
""" 严格 对 齐 图 像 ， 并 将 其 保存 为 新 的 图 像 
path 决定 对 齐 后 图 像 保 存 的 位 置 
设置 plotflag=True， 以 绘制 图 像 """ 


# 将 第 一 幅 图 像 中 的 点 作为 参考 点 


refpoints = faces.values()[0] 


# 使 用 仿 射 变换 扭曲 每 幅 图 像 
for face in faces: 
points = faces| face] 
R,tx,ty = compute rigid transform(refpoints, points) 


T = array([[R[1][1], R[1][0]], [R[o][1], R[o][0]]]) 


im = array(Image.open(os.path.join(path,face))) 
im2 = zeros(im.shape, ‘uint8') 


# 对 每 个 颜色 通道 进行 扭曲 
for i in range(len(im.shape) ): 


im2[:,:,i] = ndimage.affine transform(im[:,:,i],linalg.inv(T),offset=[-ty, -tx]) 
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if plotflag: 
imshow(im2 ) 
show( ) 


# 裁剪 边界 ， 并 保存 对 齐 后 的 图 像 


h,w = im2.shape[ :2] 
border = (w+h)/20 


# RSI 
imsave(os.path.join(path, 'aligned/'+face),im2[border:h-border,border:w-border,:]) 


这 里 我 们 使 用 imsave() 函数 来 将 对 齐 后 的 图 像 保存 到 aligned 子 文件 夹 中 。 


接 下 来 的 向 短 脚本 会 读 取 XML 文件 ， 甚 中 文件 名 为 键 ， 点 的 坐标 为 键 值 。 然 后 配 
人 难 所 有 的 图 像 ， 将 它们 与 第 一 幅 图 像 对 齐 





import imregistration 


E 载 和 人 控制 点 的 位 置 
xmlFileName = 'jkfaces2008 small/jkfaces.xml' 
points = imregistration.read points from _xml(xmlFileName) 


# 注册 
imregistration.rigid alignment(points, 'jkfaces2008 small/') 


运行 这 些 代 码 ， 你 能 够 在 子 目 孙 中 得 到 这 些 对 齐 后 的 人 脸 图 像 。 图 3-6 所 示 为 配 准 


前 后 的 6 幅 样 本 图 像 。 由 于 配 准 后 图 像 的 边界 可 能 会 出 现 不 想 要 的 黑色 填充 像素 ， 
所 以 我 们 对 配 准 后 的 图 像 进行 轻微 的 修剪 ， 来 删除 这 些 黑 色 填 充 像 素 。 




















现在 让 我 们 看 配 准 操 作 如 何 影 响 平 均 图 像 。 图 3-7 为 未 对 齐 人 脸 图 像 的 平均 图 像 ， 
BENT a ARPA. GER, HP a RW ey, LAP E E 
像 的 大 小 有 差异 ) 尽管 在 原始 图 像 中 ， 人 脸 的 尺寸 、 方 同和 位 置 变化 都 很 小 ， 但 是 
配 准 操作 对 平均 图 像 的 计算 结 采 影响 很 大 。 








3-7: 平均 图 像 的 比较 : 没有 对 草 操作 (E); 经 过 三 点 刚体 对 亨 操作 〈 石 ) 


目 然 地 ， 使 用 未 准确 配 准 的 图 像 同 样 对 主 成 分 的 计算 结 未 有 着 很 大 的 影响 。 图 3-8 
表示 ， 从 未 经 过 配 准 和 经 过 配 准 的 数据 集中 选取 前 150 RR, PCA 的 计算 结 采 。 
正如 平均 图 像 一 样 ， 未 配 准 的 PCA 模式 是 模糊 的 。 在 计算 主 成 分 时 ， 我 们 使 用 以 平 
均 人 脸 位 置 为 中 心 的 椭圆 掩 腊 。 在 堆 人 这些 图 像 之 前 ， 将 这 些 图 像 和 掩 膜 相 乘 ， 我 
们 能 够 避免 将 痛 景 变化 币 入 到 PCA 模式 中 。 将 1.3 市 PCA 例子 中 创建 矩阵 的 一 行 
松 换 为 : 





immatrix = array([mask*array(Image.open(imlist[i]).convert('L')).flatten() 
for i in range(150)],'f') 





其 中 mask 古 一 副 同 样 大 小 的 二 值 图像 ， 已 经 经 过 压 平 处 理 。 
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3-8: 比较 未 配 准 和 已 配 准 图 像 的 PCA 模式 : 未 经 过 配 准 的 平均 图 像 和 前 9 个 主 成 分 
(E); 经 过 配 准 后 的 平均 图 像 和 前 9 个 主 成 分 (下) 


3.3 创建 全 景 图 


在 同一 位 置 ( 即 图 像 的 照相 机 位 置 相同 ) 拍摄 的 两 幅 或 者 多 幅 图 像 是 单 应 性 相关 的 
(如 图 3-9 所 示 )。 我 们 经 常 使 用 该 约束 将 很 多 图 像 缝 补 起 来 ， 拼 成 一 个 大 的 图 像 来 
创建 全 景 图 像 。 在 本 中 ， 我 们 将 探讨 如 何 创 建 全 景 图 像 。 
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3-9: 瑞典 隆 德 主要 大 学 建筑 的 5 幅 图 像 。 这 些 图 像 都 是 从 同一 个 视点 拍摄 尼 


3.3.1 RANSAC 


RANSAC 是 “RANdom SAmple Consensus”( 随 机 一 致 性 采样 ) 的 缩写 。 该 方法 是 
用 来 找到 正确 模型 来 拟 合 带 有 品 再 数据 的 迭代 方法 。 给 定 一 个 模型 ， 例 如 点 集 之 间 
的 单 应 性 矩阵 ，RANSAC 基本 的 思想 是 ， 数 据 中 包含 正确 的 点 和 噪声 点 ， 合 理 的 模 
型 应 该 能 够 在 摘 述 正确 数据 氮 的 同时 握 弃 噪声 氮 。 


RANSAC 的 标准 例子 : 用 一 条 直线 拟 合 带 有 品 再 数据 的 点 集 。 人 简单 的 最 小 二 乘 在 该 
例子 中 可 能 会 失效 ,但 是 RANSAC 能 够 挑选 出 正确 的 点 ， 然 后 获取 能 够 正确 拟 合 
的 直线 。 下 面 来 看 使 用 RANSAC 的 例子 。 你 可 以 从 http://www.scipy.org/Cookbook/ 
RANSAC 下 载 ransac.py， 里 面包 含 了 特定 的 例子 作为 测试 用 例 。 3-10 为 运行 
ransac.text() 的 例子 。 可 以 看 到 ， 该 算法 只 选择 了 和 直线 模型 一 致 的 数据 点 ， 成 功 
地 找到 了 正确 的 解 。 


RANSAC 是 个 韭 第 有 用 的 算法 ， 我 们 将 在 下 一 市 估计 单 应 性 矩阵 和 其 他 一 些 例子 中 
使 用 它 。 关 于 RANSAC 更 多 的 信息 ， 参 见 Fischler 和 Bolles 的 原始 论文 [11]、 维 基 
百科 http://en.wikipedia.org/wiki/RANSAC 或 者 技术 报告 [40]。 
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。 。 数据 
x x RANSAC 数 气 
RANSACH 


线性 拟 合 





一 5 0 5 10 15 20 25 


3-10: 使 用 RANSAC 算法 用 一 条 直线 来 拟 合 包含 噪声 数据 点 集 


3.3.2 ”稳健 的 单 应 性 矩阵 估计 


我 们 在 任何 模型 中 都 可 以 使 用 RANSAC 模块 。 在 使 用 RANSAC 模块 时 ， 我 们 只 需 
要 在 相应 Python 类 中 实现 fit() 和 get error() 方法 , 剩 下 就 是 正确 地 使 用 ransac.py。 
我 们 这 里 使 用 可 能 的 对 应 点 集 来 自动 找到 用 于 全 景 图 像 的 单 应 性 矩阵 。 图 3-11 所 示 
为 使 用 SIFT 特征 自动 找到 匹配 对 应 。 这 可 以 通过 运行 下 面 的 命令 来 实现 : 








import sift 


featname = ['Univ'+str(i+1)+'.sift' for i in range(5) | 
imname = ['Univ'+str(it+1)+'.jpg' for i in range(5) | 
l= {} 
d = {} 
for i in range(5): 
sift.process image(imname[i],featname[i]) 
l[i],d[i] = sift.read features from file(featname[i]) 


matches = {} 
for i in range(4): 
matches[i] = sift.match(d[i+1],d[i]) 


显然 ， 并 不 征 所 有 图 像 中 的 对 应 点 对 都 是 正确 的 。 实 际 上 ，SIFT ÆRA IRR aE E 
的 描述 子 ， 能 够 比 其 他 摘 述 子 ， 例 如 图 像 块 相关 的 Harris 角 点 ， 产 生 更 少 的 错误 的 
匹配 。 但 是 该 方法 仍然 远 非 完 美 。 





| 人 大 大 
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图 3-11: 在 连续 图 像 对 间 使 用 SIFT 特征 寻找 匹配 对 应 点 对 


我 们 使 用 RANSAC 算法 来 求解 单 应 性 和 矩阵， 首先 需要 将 下 面 模型 类 添加 到 
homography.py 文件 中 : 


class RansacModel(object): 
""" 用 于 测试 单 应 性 矩阵 的 类 ， 其 中 单 应 性 矩阵 是 由 网 站 http://www.scipy.org/Cookbook/RANSAC 上 
的 ransac.py 计算 出 来 的 """ 


def init (self,debug=False): 
self.debug = debug 


def fit(self, data): 
"计算 选取 的 4 个 对 应 的 单 应 性 矩阵 """ 


# 将 其 转 置 ， 来 调用 H from points() 计算 单 应 性 矩阵 
data = data.T 


# 映射 的 起 始点 
+p =-datal| 23,24] 
# 映射 的 目标 点 
tips datal 3: ,24] 
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# 计算 单 应 性 和 矩阵， 然后 返回 
return H from points(fp,tp) 


def get error( self, data, H): 
""" 对 所 有 的 对 应 计算 单 应 性 矩阵， 然后 对 每 个 变换 后 的 点 ， 返 回 相应 的 误差 """ 








data = data.T 


# 映射 的 起 始点 

fo = data[:3] 

# 映射 的 目标 点 

tp = data[3: | 

# 变换 fp 

fp transformed = dot(H, fp) 


# 归 一 化 齐 次 坐标 
for i in range(3): 
fp transformed[i] /= fp transformed[2] 


# 返回 每 个 点 的 误差 
return sqrt( sum((tp-fp_ transformed) **2,axis=0) ) 


可 以 看 到 ， 这 个 类 包含 fit() 方法 。 该 方法 仅仅 接受 由 ransac.py 选择 的 4 个 对 应 后 
对 (data 中 的 前 4 个 点 对 ) ， 然 后 拟 合 一 个 单 应 性 矩阵 。 记 住 ，4 个 点 对 是 计算 单 
应 性 矩阵 所 需 的 最 少数 目 。 由 于 get error() 方法 对 每 个 对 应 点 对 使 用 该 单 应 性 和 矩 
阵 ， 然 后 返回 相应 的 平方 距离 之 和 ， 因 此 RANSAC 算法 能 够 判定 哪些 点 对 是 正确 
的 ， 哪 些 是 错误 的 。 在 实际 中 ， 我 们 需要 在 距离 上 使 用 一 个 国 值 来 决定 哪些 单 应 性 
筷 阵 是 合理 的 。 为 了 方便 使 用 ， 将 下 面 的 国 数 添 加 到 homography.py 文件 中 : 











def H from ransac(fp,tp,model,maxiter=1000,match theshold=10): 
""" 使 用 RANSAC 稳健 性 估计 点 对 应 间 的 单 应 性 矩阵 H (Transac.py 为 从 
http://www.scipy.org/Cookbook/RANSAC 下 载 的 版 本 ) 


# 输入 ; 齐 次 坐标 表示 的 点 fp, tp (3 xn 的 数组 )""" 
import ransac 


# 对 应 点 组 

data = vstack((fp, tp) ) 

# 计算 H， 并 返回 

H,ransac data = ransac.ransac(data.T,model,4,maxiter,match theshold,10, 


return_all=True) 
return H,ransac_data['inliers' | 











iF BB BK fr] AE IC he HE Ds (A ee DE TA. ie A BS BE AIK UR: 
程序 退出 太 早 可 能 得 到 一 个 坏 解 ， 友 代 次 数 太 多 会 白 用 太 多 时 间 。 国 数 的 返回 结 末 
为 单 应 性 矩阵 和 对 应 该 单 应 性 和 矩阵 的 正确 所 对 。 


类 似 于 下 面 的 操作 ， 你 可 以 将 RANSAC 算法 应 用 于 对 应 点 对 上 


# 将 匹配 转换 成 齐 次 坐标 后 的 函数 

def convert points(j): 
ndx = matches[j].nonzero()[0] 
fp = homography.make_homog(1[j+1][ndx,:2].T) 
ndx2 = [int(matches[j][i]) for i in ndx] 
tp = homography.make_homog(1[j][ndx2,:2].T) 
return fp,tp 


# (ert FE PERRE 
model = homography.RansacModel() 


fo,tp = convert_points(1) 
H 12 = homography.H from ransac(fp,tp,model)[0] # im1 到 im2 的 单 应 性 矩阵 


fo,tp = convert_points(0) 
H 01 = homography.H from ransac(fp,tp,model)[0] # imo 到 im1 的 单 应 性 矩阵 


tp,fp = convert _points(2) # 注意 : 点 是 反 序 的 
H 32 = homography.H from ransac(fp,tp,model)[0] # im3 到 im2 的 单 应 性 矩阵 


tp,fp = convert points(3) # 注意 点 是 反 序 的 
H 43 = homography.H from ransac(fp,tp,model)[0] # im4 到 im3 的 单 应 性 矩阵 


在 该 例子 中 ， 图 像 2 古 中 心 图 像 ， 也 是 我 们 希望 将 其 他 图 像 变 成 的 图 像 。 图 像 0 和 
图 像 1 应 该 从 右边 扭曲 ， 图 像 3 和 图 像 4 从 左边 扭曲 。 在 每 个 图 像 对 中 ， 由 于 匹配 
古 从 最 右边 的 图 像 计算 出 来 的 ， 所 以 我 们 将 对 应 的 顺序 进行 了 三 倒 ， 使 其 从 左边 图 
像 开 始 扭 曲 。 因 为 我 们 不 关心 该 扭曲 例子 中 的 正确 点 对 ， 所 以 仅 需 要 该 函数 的 第 一 
个 输出 ( 单 应 性 矩阵 )。 


3.3.3 ”拼接 图 像 

估计 出 图 像 间 的 单 应 性 矩阵 (使 用 RANSAC 算法 )， 现 在 我 们 需要 将 所 有 的 图 像 扭 
曲 到 一 个 公共 的 图 像 平面 上 上。 通常 ， 这 里 的 公共 平面 为 中 心 图像 平 面 (否则 ， 需 要 
进行 大 量变 形 )。 一 种 方法 是 创建 一 个 很 大 的 图 像 ， 比 如 图 像 中 全 部 填充 0， 使 其 和 
中 心 图 像 平 行 ， 然 后 将 所 有 的 图 像 扭 曲 到 上 面 。 由 于 我 们 所 有 的 图 像 是 由 照相 机 水 平 
旋转 拍摄 的 ， 因 此 我 们 可 以 使 用 一 个 较 人 简单 的 步 双 :将 中 心 图 像 左 边 或 者 右边 的 区 域 
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填充 0， 以 便 为 扭曲 的 图 像 腾 出 空间 。 将 下 面 的 代码 添加 到 warp.py 文件 中 : 


def panorama(H,fromim,toim,padding=2400, delta=2400): 
morn 使 用 单 应 性 矩阵 H (使 用 RANSAC 健壮 性 估计 得 出 )， 协 调 两 幅 图 像 ， 创 建 水 平 全 景 图 像 。 结 果 
为 一 幅 和 toim 具有 相同 高 度 的 图 像 。padding 指定 填充 像素 的 数目 ，delta 指定 额外 的 平移 量 """ 





# 检查 图 像 是 灰 度 图 像 ， 还 是 彩色 图 像 


is color = len(fromim.shape) == 


# 用 于 geometric transform() 的 单 应 性 变换 
def transf(p): 

p2 = dot(H,[p[0],p[1],1]) 

return (p2[0]/p2[2],p2[1]/p2[2]) 


if H[1,2]<o: # fromim 在 右边 
print ‘warp - right’ 
# 变换 fromim 
WaS Color: 
# 在 目标 图 像 的 右边 填充 0 
toim t = hstack((toim, zeros((toim.shape[0],padding,3)))) 
fromim t = zeros((toim.shape[0],toim.shape[1]+padding, toim. shape| 2 ]) ) 
for col in range(3): 
fromim t[:,:,col] = ndimage.geometric transform(fromim[:,:,col], 
transf, (toim.shape[0],toim. shape[1]+padding) ) 
else: 
# 在 目标 图 像 的 右边 填充 0 
toim t = hstack((toim, zeros((toim. shape[0],padding) ))) 
fromim t = ndimage.geometric_ transform(fromim, transf, 
(toim.shape[0],toim. shape[1]+padding) ) 
else: 
print ‘warp - left’ 
# 为 了 补偿 填充 效果 ， 在 左边 加 入 平移 量 
H delta = array([[1,0,0],[0,1,-delta],[0,0,1]]) 
H = dot(H,H delta) 
# fromim 变换 
dees GC OLE 
# 在 目标 图 像 的 左边 填充 0 
toim t = hstack((zeros((toim.shape[0],padding,3)),toim) ) 
fromim t = zeros((toim.shape[0],toim.shape[1]+padding,toim.shape[2])) 
for col in range(3): 
fromim t[:,:,col] = ndimage.geometric transform(fromim[:,:,col], 
transf, (toim.shape[0],toim.shape[1]+padding) ) 
else: 
# 在 目标 图 像 的 左边 填充 0 
toim t = hstack((zeros((toim.shapelo|],padding)),toim)) 
fromim t = ndimage.geometric transform(fromim, 





transf, (toim.shape[0],toim. shape[1]+padding) ) 


# 协调 后 返回 (将 fromim 放置 在 toim E) 
ee 

t PRATER ERA 

aloha: = (Chrominiet is Ol Fromim tls trom tle I) 0) 

for col in range(3): 

toim t[:,:,col] = fromim t[:,:,col]*alpha + toim t[:,:,col]*(1-alpha) 

else: 

alpha = (fromim t > 0) 

toim t = fromim t*alpha + toim t*(1-alpha) 


return toim t 


对 于 通用 的 geometric transform() 国 数 ， 我 们 需要 指定 能 够 摘 述 像素 到 像素 间 映 射 
的 函数 。 在 这 个 例子 中 ，transf() 久 数 就 是 该 指定 的 函数 。 该 函数 通过 将 像素 和 二 
相 乘 ， 然 后 对 齐 次 坐标 进行 归 一 化 来 实现 像素 则 的 上 映射。 通过 查看 五 中 的 平移 量 
我 们 可 以 决定 应 该 将 该 图 像 填 补 到 左边 还 是 右边 。 当 该 图 像 填 和 补 到 左边 时 ， ATE 
标 图 像 中 点 的 坐标 也 变化 了 ， 所 以 在 “左边 ”情况 中 ， 需 要 在 单 应 性 矩阵 中 加 入 平 
移 。 人 向 单 起 见 ， 我 们 同样 使 用 0 像素 的 技巧 来 寻找 alpha 图 。 


现在 在 图 像 中 使 用 该 操作 ， 函 数 如 下 所 示 : 


# 扭曲 图 像 
delta = 2000 # 用 于 填充 和 平移 








im1 = array(Image.open(imname[1])) 


im2 = array(Image.open(imname|2 |) ) 
im 12 = warp.panorama(H 12,im1,im2,delta,delta) 


im1 = array(Image.open(imname[0]) ) 
im 02 = warp.panorama(dot(H 12,H 01),im1,im 12,delta,delta) 


im1 = array(Image.open(imname|[3]) ) 
im 32 = warp.panorama(H 32,im1,im 02,delta,delta) 


im1 = array(Image.open(imname|j+1])) 
im 42 = warp.panorama(dot(H_ 32,H 43),im1,im 32,delta,2*delta) 


注意 ， 在 最 后 一 行 中 ，im 32 图 像 已 经 发 生 了 一 次 平移 。 创 建 的 全 景 图 结果 如 
图 3-12 Prax. JERR ATA SIA, Al RRC A Tal, e 
应 。 商 业 的 创建 全 景 图 像 软件 里 有 额外 的 操作 来 对 强度 进行 归 一 化 ， 并 对 平移 进行 
平和 请 场景 转换 ， 以 使 得 结 末 看 上 去 更 好 。 
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3-12: 使 用 SIFT 对 应 点 对 自动 创建 水 平 全景 图 像 : 全 部 的 全 景 图 像 (E); 对 中 心 部 分 
图 像 进 行 裁 前 后 的 图 像 (T) 


练习 


(1) 写 出 一 个 函数 ， 其 输入 参数 为 正方 形 (或 者 长 方形 ) 物体 (例如 ,一 本 书 、 一 张 
t, KERE) 图 像 的 坐标 。 然 后 ， 计 算 将 该 长 方形 映射 归 一 化 坐标 系 
中 正视 图 全 图 的 变换 。 你 可 以 使 用 ginput()， 或 者 最 强 的 Harris 角 点 来 发 现 长 方 
形 物体 的 稳健 性 角 点 。 

(2) 写 出 一 个 函数 ， 对 于 如 图 3-1 所 示 的 扭曲 能 够 正确 地 找到 alpha AR. 

(3) 在 你 自己 的 数据 集中 找 出 包含 三 个 公共 的 标记 物 〈 像 人 脸 例子 一 样 ， 或 者 使 用 著 
BRA, ARIER) 的 那个 。 创 建 对 齐 后 的 图 像 ， 其 中 这 些 标 记 物 在 同 
一 个 位 置 上 。 计 算 平均 和 中 值 图 像 ， 然 后 可 视 化 。 

(4) 进行 亮度 归 一 化 操作 ， 找 出 在 全 景 图 像 例 子 中 更 好 地 拼接 图 像 的 方法 。 该 方法 能 
够 去 除 图 3-12 中 的 边缘 效应 。 

(5) 与 将 图 像 扭 曲 到 中 心 图 像 上 不 同 ， 全 景 图 像 可 以 通过 将 图 像 扭 曲 到 圆柱 体 上 来 创 
建 。 试 着 在 图 3-12 的 例子 中 使 用 该 方式 创建 全 景 图 像 。 

(6) 使 用 RANSAC 算法 来 找到 一 些 主 要 的 正确 单 应 性 矩阵 集合 。 一 个 简单 的 方式 
是 ， 自 先 运 行 一 次 RANSAC 算法 ， 找 到 具有 最 大 一 人 致 子 集 的 单 应 性 和 矩阵， 然后 
将 与 该 单 应 性 和 矩阵 一 致 的 对 应 点 对 从 匹配 集合 中 删除 ， 再 运行 RANSAC 算法 找 
到 下 一 个 最 大 的 集合 ， 以 此 类 推 。 

(7) 修改 单 应 性 矩阵 的 RANSAC 估计 算法 ,来 使 用 三 个 对 应 点 对 计算 仿 射 变换 。 使 
用 该 算法 来 判断 图 像 对 之 间 是 否 包 仿 平 面 场景 ， 例 如 使 用 正确 点 的 个 数 。 对 于 仿 
射 变化 ， 平 面 场景 中 正确 点 的 个 数 会 很 多 。 

(8) 通过 匹配 局 部 特征 ， 以 及 使 用 最 小 二 乘 刚体 配 准 ， 用 多 个 图 像 〈 人 例如， 从 Flickr 
TA) 创建 一 个 全 景 图 (http://en.wikipedia.org/wiki/Panography ) 。 
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照相 机 模型 与 增强 现实 





本 革 中 ， 我 们 将 尝试 对 照相 机 进行 建 模 ， 并 有 效 地 使 用 这 些 模 型 。 在 之 前 的 革 届 里， 
我 们 已 经 讲述 了 图 像 到 图 像 之 间 的 上 映射 和 变换 。 为 了 处 理 三 维 图 像 和 平面 图 像 之 间 
的 映射 ， 我 们 需要 在 映射 中 加 入 部 分 照相 机 产生 图 像 过 程 的 投影 特性 。 本 半 中 我 们 
将 会 讲述 如 何 确定 照相 机 的 参数 ， 以 及 在 具体 应 用 中 ， 如 增强 现实 ， 如 何 使 用 图 像 
间 的 投影 变换 。 下 一 章 中 ， 我 们 将 使 用 照相 机 模型 处 理 其 他 一 些 应 用 ， 比 如 多 视图 
及 其 映射 。 


4.1 针 孔 照相 机 模型 


针 孔 照相 机 模型 《有 时 称 为 射影 照相 机 模型 ) 是 计算 机 视觉 中 广泛 使 用 的 照相 机 模 
型 。 对 于 大 多 数 应 用 来 说 ， 儿 和 孔 照 相机 模型 简单 ， 并 且 具 有 足够 的 精确 度 。 这 个 名 
字 来 源 于 一 种 类 似 上 暗箱 机 的 照相 机 。 该 照相 机 从 一 个 小 孔 采 集 射 到 暗箱 内 部 的 光线 。 
在 针 孔 照相 机 模型 中 ， 在 光线 投影 到 图 像 平 面 之 前 ， 从 唯一 一 个 点 经 过 ， 也 就 是 
照相 机 中 心 C。 图 4-1 为 从 照相 机 中 心 前 画 出 图 像 平面 的 图 解 。 事 实 上 ， 在 真实 的 
照相 机 中 ， 图 像 平 面 位 于 照相 机 中 心 之 后 ， 但 是 照相 机 的 模型 和 图 4-1 的 模型 是 一 
样 的 。 
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图 4-1: 针 孔 照相 机 模型 。 图 像 点 x 是 由 图 像 平 面 与 连接 三 维 点 X 和 照相 机 中 心 C 的 直线 相 
交 而 成 的 。 虚 线 表示 该 照相 机 的 光学 坐标 轴 


由 图 像 坐 标 轴 和 三 维 坐 标 系 中 的 x GHA y 轴 对 齐 平行 的 假设 ， 我 们 可 以 得 出 针 和 孔 照 
相机 的 投影 性 质 。 照 相机 的 光学 坐标 轴 和 z 轴 一 致 ， 该 投影 几何 可 以 简化 成 相似 三 
角形 。 在 投影 之 前 通过 旋转 和 平移 变换 ， 对 该 坐标 系 加 入 三 维 点 ， 会 出 现 完整 的 投 
影 变 换 。 感 兴趣 的 读者 可 以 查阅 文献 [13]、[25] 和 [26]. 


在 针 孔 照相 机 中 ， 三 维 点 X 投影 为 图 像 点 x (两 个 点 都 是 用 齐 次 坐标 表示 的 )， 如 下 
所 未: 





Ax = PX (4.1) 


i, 3x4HJ ERE PO ta Use TE (或 投影 矩阵 )。 注 意 ， 在 齐 次 坐标 系 中 ， 三 维 
点 XX 的 坐标 由 4 个 元 素 组 成 ，X=[X, Y, Z, Wl REWE AE SERRE. AM 
果 我 们 打算 在 齐 次 坐标 中 将 最 后 一 个 数值 归 一 化 为 1， 那么 就 会 使 用 到 它 


4.1.1 BABA AES 
照相 机 矩阵 可 以 分 解 为 : 


P=K{R{t] (4.2) 





其 中 , R 是 描述 照相 机 方向 的 旋转 矩阵 ，t 是 描述 照相 机 中 心 位 置 的 三 维 平移 向 量 ， 
内 标定 下 了 泗 玉 描述 照相 机 的 投影 性 质 。 


标定 矩阵 仅 和 照相 机 自重 的 情况 相关 ， 通 篆 情 况 下 可 以 写成 : 





K= 





af S C 
ore) 
001 





图 像 平 面 和 照相 机 中 心间 的 距离 为 焦距 大 SRR ER E at EAT Me, RE 
HAMR SA s。 在 大 多 数 情况 下 ，s 可 以 设置 成 0。 也 就 古 说 : 

f 
=|0 
0 0 I 





0 e 
f | (4.3) 
这 里 ， 我 们 使 用 了 另外 的 记号 和 天， 两 者 关系 为 f=af。 


纵横 比例 参数 a 是 在 像 达 元 过 韭 正方 形 的 情况 下 使 用 的 。 通 篆 情 况 下 ， 我 们 可 以 默 
认 设 置 a=1。 经 过 这 些 假 设 ， 标定 矩阵 变 为 : 


SOG 
0 =f se; 
00 1 


K = 





除 焦 跑 之 外 ， 标 定 和 矩阵 中 剩余 的 唯一 参数 为 光 心 (有 时 称 主 点 ) 的 坐标 ce=[c,，c,]， 
也 就 征 光 线 坐 标 轴 和 图 像 平面 的 交 扣 。 因 为 光 心 通 间 在 图 像 的 中 心 ， 并 且 图 像 的 坐 
标 是 从 左上 和 角 开 始 计算 的 ， 所 以 光 心 的 坐标 津 接 近 于 图 像 宽度 和 高 度 的 一 半 。 特 别 
强调 一 把 ， 在 这 个 例子 中 ， 唯 一 未 知 的 变量 是 焦距 f。 


4.1.2 ”三维 点 的 投影 
下 面 来 创建 照相 机 类 ， 用 来 处 理 我 们 对 照相 机 和 投影 建 模 所 需要 的 全 部 操作 : 








from scipy import linalg 


class Camera(object): 


“和 示 示 针 孔 照相 机 的 类 "” 


def- init (selt,P): 
"hate P = K[RIt] 照相 机 模型 """ 
Se 下 =P 
self.K = None # 标定 和 失 阵 
self.R = None # 旋转 
self.t = None # 平移 
self.c = None # 照相 机 中 心 


def project(self,X): 
X (4x n 的 数组 ) 的 投影 点 ， 并 且 进 行 坐标 归 一 化 " 








照相 机 模型 与 增强 现实 | 87 


x = dot(self.P,X) 
for i in range(3): 

XK] c= x2] 
return x 


下 面 的 例子 展示 如 何 将 三 维 中 的 点 投影 到 图 像 视图 中 。 在 这 个 例子 中 ， 我 们 将 使 用 
牛津 多 视图 数据 集中 的 “Model Housing” 数 据 集 ， 可 以 从 http://www.robots.ox.ac. 
uk/~vgg/data/data-mview.html 下 载 。 下 载 这 些 三 维 几 何 图 像 文 件 ， 然 后 将 house.p3d 
文件 复制 到 你 的 工作 目 永 里 : 


import camera 


H 载 和 人 点 
points = loadtxt('house.p3d').T 
points = vstack((points,ones(points.shape[1]))) 


# 设置 照相 机 参数 
P = hstack((eye(3),array([[0],[0],[-10]]))) 
cam = camera.Camera(P) 


x = cam.project(points) 


# 绘制 投影 

figure() 

plot (x[0l, x(t] Ke 
show( ) 


首先 ， oo We aaa 个 投影 矩阵 来 创建 Camera 
对 象 将 这 些 三 维 点 投影 到 图 像 平 面 并 执行 绘制 操作 ， 输 出 结 末 如 图 4-2 中 间 图 像 
所 示 。 


为 了 研究 照相 机 的 移动 会 如 何 改变 投影 的 效 末 ， 你 可 以 使 用 下 面 的 代码 。 该 代码 围 
绕 一 个 随机 的 三 维 向 量 ， 进 行 增 量 旋转 的 投影 。 


# 创建 变换 
r = 0.05*random.rand(3) 
rot = camera.rotation matrix(r) 





# 旋转 矩阵 和 投影 

figure() 

for t in range(20): 
cam.P = dot(cam.P, rot) 
x = cam.project(points) 
plot(x[0],x[1],"k.*) 





show() 


ee 我 们 使 用 了 rotation matrix() 函数 ， 该 函数 能 够 创建 围绕 一 个 问 
进行 三 维 旋转 的 旋转 矩阵 〈 将 该 国 数 添加 到 camera.py 文件 中 ) : 


def rotation matrix(a): 
" 创建 一 个 用 于 围绕 向 量 a Se PRAY = EERE """ 
R = eye(4) 
R[:3,:3] = linalg.expm([[0,-a[2],a[1]],[a[2],0,-a[0]],[-a[1],a[o],0]]) 
return R 





图 4-2 Brana BA FEI A RR, SERA, DAR ik EE E ABEN e 
量 旋 转 后 三 维 点 投影 的 轨迹 。 运 行 该 代码 几 次 ， 进 行 不 同 的 随机 旋转 之 后 ， 你 会 对 
扎 在 投影 中 如 何 旋转 有 一 些 感觉。 











图 4-2; operons 样本 图 像 (Z): 图 像 视图 中 投影 后 的 点 (P); 经 过 照相 机 旋转 后 
及 影 点 的 轨迹 ( 右 ) 。 数 据 来 自 于 牛津 “Model House” AES 


4.1.3 ”照相 机 和 矩阵 的 分 解 


如 末 给 定 如 方程 (4.2) 所 示 的 照相 机 算 阵 己 ， 我 们 需要 恢复 内 参数 天 以 及 照相 机 的 
位 置 t 和 姿势 R。 算 阵 分 块 操作 称 为 因子 分 解 。 这 里 ， 我 们 将 使 用 一 种 矩阵 因子 分 
解 的 方法 ， 称 为 RQ 因子 分 解 。 


将 下 面 的 方法 添加 到 Camera 类 中 : 


def factor(self): 
"将 照相 机 和 拖 阵 分 解 为 K、R、t， 其 中 ，P = K[R|t] """ 


# 分 解 前 3 x3 的 部 分 
K,R = linalg.rq(self.P[:,:3]) 


# 将 K 的 对 角 线 元 素 设 为 正 值 

T = diag(sign(diag(K))) 

if linalg.det(T) < O: 
Thigh) “= 24 
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self.K = dot(K,T) 
self.R = dot(T,R) # 工 的 逆 矩 阵 为 其 自身 
self.t = dot(linalg.inv(self.K),self.P[:,3]) 





return self.K, self.R, self.t 


RQ 因子 分 解 的 结 来 并 不 是 唯一 的 。 在 该 因子 分 解 中 ,分 解 的 结 来 存在 符号 二 义 性 。 
由 于 我 们 需要 限制 旋转 矩阵 R 为 正定 的 《否则 ， 旋 转 坐 标 轴 即 可 ) ， 所 以 如 采 需 要 ， 
我 们 可 以 在 求解 到 的 结 末 中 加 入 变换 了 来 改变 符 扎 。 


在 示例 照相 机 上 运行 下 面 的 代码 ， 观 罕 照 相机 箱 阵 分 解 的 效 末 : 





import camera 


K = array([[1000,0,500],[0,1000, 300],[0,0,1]]) 
tmp = camera.rotation matrix([0,0,1])[:3,:3] 
Rt = hstack((tmp, array([{[50],[40],[30]]))) 

cam = camera.Camera(dot(K,Rt) ) 


print K, Rt 
print cam. factor() 


你 会 在 控制 人 台 上 得 到 相同 的 输出 。 


4.1.4 计算 照相 机 中 心 
给 定 照 相机 投影 矩阵 了， 我 们 可 以 计算 出 空间 上 照相 机 的 所 在 位 置 。 照 相机 的 中 心 
C， 是 一 个 三 维 点 ， 满 足 约束 PC=0。 对 于 投影 矩阵 为 PK[R 的 照相 机 ， 有 : 


K[R|t]C = K RC+Kt=0 
照相 机 的 中 心 可 以 由 下 述 式 子 来 计算 : 
C=—R't 
注意 ， 如 预期 一 样 ， 照 相机 的 中 心 和 内 标定 矩阵 无 关 。 


下 面 的 代码 可 以 按照 上 面 公式 计算 照相 机 的 中 心 。 将 其 添加 到 Camera 类 中 ， 该 方法 


def center(self): 
"u 计算 并 返回 照相 机 的 中 心 """ 


if self.c is not None: 





return self.c 

else: 
# 通过 因子 分 解 计 算 c 
self.factor() 
self.c = -dot(self.R.T,self.t) 
return self.c 


上 面 的 一 些 方法 构成 了 Camera 类 的 基本 国 数 操作 。 现 在 ， 让 我 们 一 起 探讨 如 何 使 用 
针 筷 照相 机 模型 。 


4.2 ”照相 机 标定 


标定 照相 机 是 指 计算 出 该 照相 机 的 内 参数 。 在 我 们 的 例子 中 ， 是 指 计算 矩阵 K。 如 
果 你 的 应 用 要 求 高 精度 ， 那 么 可 以 扩展 该 照相 机 模型 ,使 其 包含 径 同 畸变 和 其 他 
条 件 。 对 于 大 多 数 应 用 来 说 ， 公 式 (4.3) 中 的 简单 照相 机 模型 已 经 足够 。 标 定 照 
相机 的 标准 方法 是 ， 哲 摄 多 幅 平 面 棋盘 模式 的 图 像 ， 然 后 进行 处 理 计 算 。 例 如 ， 
OpenCV 中 的 标定 工具 使 用 了 这 种 方法 ( 详 见 文献 [3])。 


4.2.1 一 个 简单 的 标定 方法 

这 里 我 们 将 要 介绍 一 个 简单 的 照相 机 标定 方法 。 大 多 数 参 数 可 以 使 用 基本 的 假设 来 
设 定 〈 正 方形 垂直 的 像素 ， 光 心 位 于 图 像 中 心 )， 比 较 难 处 理 的 是 获得 正确 的 焦距 。 
对 于 这 种 标定 方法 ， 你 需要 准备 一 个 平面 矩形 的 标定 物体 (一 个 书本 即 可 )、 用 于 测 
量 的 卷 尺 和 直 尺 ， 以 及 一 个 平面 。 下 面 是 具体 操作 步骤 : 


。 测量 你 选 定 抵 形 标定 物体 的 边 长 LX 和 dY; 

。 将 照相 机 和 标定 物体 放置 在 平面 上 ， 使 得 照相 机 的 背面 和 标定 物体 平行 ， 同 时 物 
体位 于 照相 机 图 像 视 图 的 中 心 ， 你 可 能 需要 调整 照相 机 或 者 物体 来 获得 民 好 的 对 
FTA 

。 测量 标定 物体 到 照相 机 的 距离 dZ; 

。 拍摄 一 副 图 像 来 检验 该 设置 是 否 正确 ， 即 标定 物体 的 边 要 和 图 像 的 行 和 列 对 齐 ; 

。 使 用 像 系 数 来 测量 标定 物体 图 像 的 宽度 和 高 度 dx 和 dy. 


实验 设置 情况 如 图 4-3 所 示 。 现 在 ， 使 用 下 面 的 相似 三 角形 (参见 图 4-1) 关系 可 以 
多 得 焦距 : 














二 _ dy 
fog, fata 
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图 4-3: 简单 的 照相 机 标定 设置 : 进行 标定 实验 使 用 的 设置 情 抑 图 像 〈 左 ) ; 用 于 标定 的 图 像 
( 右 )。 在 图 像 中 测量 标定 物体 的 宽度 和 高 度 ， 以 及 设置 中 标定 物体 的 实际 物理 尺寸 ， 就 可 以 
确定 焦距 的 大 小 


对 于 如 图 4-3 所 示 的 特定 设置 ， 物 体 宽度 和 高 度 的 测量 值 分 别 为 130 mm 和 185 mm, 
则 ，dX=130，d7=185。 从 照相 机 到 物体 的 距离 为 460 mm， 则 dZ=460。 你 可 以 使 用 
任意 的 测量 单位 ， 只 有 测量 值 的 比例 才 影 响 最 终 焦 跑 的 计算 。 你 可 以 使 用 ginput() 
函数 来 获得 图 像 中 的 4 个 点 ， 图 像 中 物体 的 宽度 和 高 度 分 别 为 722 和 1040 像素 。 
将 这 些 值 代入 上 面 的 关系 表达 式 可 以 获得 焦 跑 的 大 小 : 

大 = 2555, f = 2586 
值得 注意 的 是 ， 我 们 现在 获取 的 焦 中 是 在 特定 图 像 分 辨 率 下 计算 出 来 的 。 在 这 个 例 
子 中 ， 图 像 大 小 为 2592 x 1936 像素 。 记 住 ， 焦 距 和 交心 是 使 用 像素 来 度量 的 ， 其 
尺度 和 图 像 分 辩 率 相关 。 如 果 你 使 用 其 他 的 图 像 分 辩 率 来 拍摄 〈 例 如 ， 一 个 缩 略图 
像 ) ， 那 么 这 些 值 都 会 改变 。 将 照相 机 的 这 些 测 量 数值 写 入 到 一 个 如 下 所 示 的 辅助 函 
数 中 ， 会 方便 一 些 : 


def my calibration(sz): 





row,col = sz 

fx = 2555*co1l/2592 
fy = 2586*row/1936 
K = diag([fx, fy,1]) 
K[0,2] = 0.5*col 
K[1,2] = 0.5*row 
return K 


IZ PRB AT A ZB BA Ze RAD ITC, RB A pee FARE. E, BAB 





大 多 数 普 通 照 相机 来 说 ， 这 样 做 古 可 以 的 。 注 意 ， 这 里 的 标定 是 对 于 横向 旋转 的 图 
像 。 对 于 纵 癌 旋转 ， 你 需要 交换 标定 矩阵 中 焦距 的 值 。 我 们 会 保留 上 面 的 这 个 函数 ， 
方便 在 下 面 的 草 贡 中 使 用 。 





4.3 ”以 平面 和 标记 物 进 行 姿 态 估计 

在 第 3 章 中 ， 我 们 学 习 了 如 何 从 平面 间 估计 单 应 性 和 矩阵。 如果 图 像 中 包含 平面 状 的 
标记 物体 ， 并 且 已 经 对 照相 机 进行 了 标定 ， 那 么 我 们 可 以 计算 出 照相 机 的 姿态 ( 旋 
转 和 平移 )。 这 里 的 标记 物体 可 以 为 对 任何 平坦 的 物体 。 


我 们 使 用 一 个 例子 来 泪 示 如 何 进行 姿态 估计 。 这 里 借助 图 4-4 中 顶端 的 两 幅 图 像 。 
我 们 使 用 下 面 的 代码 来 提取 两 幅 o SIFT 特征 ， 然 后 使 用 RANSAC 算法 稳健 地 
估计 单 应 性 矩阵: 








import homography 
import camera 
import sift 


# 计算 特征 
sift.process image('book frontal.JPG','imo.sift') 
10,d0 = sift.read features from file('imo.sift') 


sift.process image('book perspective.JPG','im1.sift') 
l1,d1 = sift.read features from file('im1.sift') 


# 匹配 特征 ， 并 计算 单 应 性 算 阵 

matches = sift.match twosided(do,d1) 

ndx = matches.nonzero() [o] 

fp = homography.make_homog(lo[ndx,:2].T) 
ndx2 = [int(matches[i]) for i in ndx] 

tp = homography.make_homog(l1[ndx2,:2].T) 


model = homography.RansacModel() 
H = homography.H from ransac(fp,tp,model) 


MERMA TMERRE, 1B PEE ee — A Re i (在 这 个 例子 中 ， 
标记 物 是 指 书本 ) LARRY SIA RRA A PRITE AY = e 
坐标 系 ， 使 标记 物 在 系 了 平面 上 〈Z=0)， 原 点 在 标记 物 的 某 位 置 上 。 


为 了 检验 单 应 性 矩阵 结果 的 正确 性 ， 我 们 需要 将 一 些 简 单 的 三 维 物体 放置 在 标记 物 
上 ， 这 里 我 们 使 用 一 个 立方 体 。 你 可 以 使 用 下 面 的 函数 来 产生 立方 体 上 的 扩 : 





ae _points(c,wid): 
" 创建 用 于 绘制 立方 体 的 一 个 点 列表 (前 5 个 点 是 底部 的 正方 形 ， 一些 边 重合 了 )""" 
oa i 
# 底部 
p.append([c[0]-wid,c[1]-wid,c[2]-wid]) 
p.append([c[0]-wid, c[1]+wid,c[2]-wid]) 
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p.append([c[0]+wid, c[1]+wid, c[2]-wid]) 
p.append([c[0]+wid,c[1]-wid,c[2]-wid]) 
p.append([c[0]-wid,c[1]-wid,c[2]-wid]) # 为 了 绘制 闭合 图 像 ， 和 第 一 个 相同 
# 顶部 

p.append([c[0]-wid,c[1]-wid,c[2]+wid]) 

p.append([c[0]-wid, c[1]+wid,c[2]+wid]) 

p.append([c[0]+wid, c[1]+wid,c[2]+wid]) 

p.append([c[0]+wid, c[1]-wid,c[2]+wid]) 
p.append([c[0]-wid,c[1]-wid,c[2]+wid]) # 为 了 绘制 闭合 图 像 ， 和 第 一 个 相同 
# 竖 直 边 

p.append([c[0]-wid,c[1]-wid, c[2]+wid]) 

p.append([c[0]-wid,c[1]+wid, c[2]+wid]) 

p.append([c[0]-wid,c[1]+wid, c[2]-wid]) 

p.append([c[0]+wid, c[1]+wid, c[2]-wid]) 

p.append([c[0]+wid, c[1]+wid, c[2]+wid]) 

p.append([c[0]+wid,c[1]-wid, c[2]+wid]) 
p.append([c[0]+wid,c[1]-wid,c[2]-wid]) 


return array(p).T 


在 上 面 的 函数 中 ， 一 些 数据 点 会 重复 出 现 ，plot() 函数 会 绘制 出 漂亮 的 立方 体 。 
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图 4-4: 使 用 平面 物体 作为 标记 物 ， 来 计算 用 于 新 视图 投影 起 阵 的 例子 。 将 图 像 的 特征 和 对 
齐 后 的 标记 匹配 ， 计 算出 单 应 性 窍 阵 ， 然 后 用 于 计算 照相 机 的 姿态 。 带 有 一 个 灰色 正方 形 区 
域 的 模板 图 像 (左上 ) ;从 未 知 视角 拍摄 的 一 幅 图 像 ， 该 图 像 包 含 同一 个 正方 形 ， 该 正方 形 
已 经 经 过 估计 的 单 应 性 息 阵 进行 了 变换 (GE); 使 用 计算 出 的 照相 机 和 矩阵 变换 立方 体 (下 ) 





有 了 单 应 性 矩阵 和 照相 机 的 标定 矩阵 ， 我 们 现在 可 以 得 出 两 个 视图 间 的 相对 变换 : 


# 计算 照相 机 标定 矩阵 
K = my_calibration((747,1000) ) 


# 位 于 边 长 为 0.2，z=0 平面 上 的 三 维 点 
box = cube points([0,0,0.1],0.1) 


# 投影 第 一 幅 图 像 上 底部 的 正方 形 

camı = camera.Camera( hstack((K,dot(K,array([[0],[0],[-1]])) )) ) 
# 底部 正方 形 上 的 点 

box cam1 = cam1.project(homography.make_homog(box[:,:5])) 


# 使 用 H 将 点 变换 到 第 二 幅 图 像 中 


box trans = homography.normalize(dot(H,box_cam1) ) 


# 从 cama 和 H 中 计算 第 二 个 照相 机 和 矩阵 

cam2 = camera.Camera(dot(H,cam1.P)) 

A = dot(linalg.inv(K),cam2.P[:, :3]) 

Avs array ((Al-7;0]A[ 251] xcross(Al2, Ol A 241) ]) 37 
CAMP [| Sdot KA) 


# 使 用 第 二 个 照相 机 和 矩阵 投影 


box cam2 = cam2.project(homography.make homog(box)) 


# 测试 将 点 投影 在 z=0 上 ， 应 该 能 够 得 到 相同 的 点 
pointes arran [1545051] ysT 

print homography.normalize(dot(dot(H,cam1.P),point) ) 
print cam2.project(point) 





这 里 我 们 使 用 图 像 的 分 辩 率 为 747 x 1000， 第 一 个 产生 的 标定 矩阵 就 是 在 该 图 像 分 
辩 率 大 小 下 的 标定 矩阵 。 下 面 ， 我 们 在 原点 附近 创建 立方 体 上 的 点 。cube_points() 
畏 数 产生 的 前 五 个 点 对 应 于 了 立方 体 底 部 的 点 ， 在 这 个 例子 中 对 应 于 位 于 标记 物 上 
Z=0 平面 内 的 点 。 第 一 幅 图 像 (图 4-4 左上 ) 是 书本 的 主 视图 ， 我们 将 其 作为 这 个 
例子 中 的 模板 图 像 。 因 为 场景 坐标 的 尺度 是 任意 的 ， 所 以 我 们 使 用 下 面 的 矩阵 来 创 
建 第 一 个 照相 机 : 











其 中 ， 图 像 的 坐标 轴 和 照相 机 是 对 齐 的 ， 并 且 放 秆 在 标记 物 的 正 上 方 。 将 前 5 个 三 维 
尽 投 影 到 图 像 上 。 有 了 估计 出 的 单 应 性 和 矩阵， 我 们 可 以 将 其 变换 到 第 二 幅 图 像 上 。 绘 
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制 出 变换 后 的 图 像 ， 并 在 同样 的 标记 物 位 置 绘制 出 这 些 点 (如 图 4-4 右上 所 示 )。 
现在 ， 结 合 P 和 五 构建 第 二 幅 图 像 的 照相 机 和 矩 阵 : 
P,=HP, 


该 算 阵 将 标记 平面 Z=0 上 的 点 变换 到 正确 的 位 置 。 也 就 古 说 ，P, 矩阵 的 前 两 列 和 第 
四 列 是 正确 的 。 由 于 我 们 知道 前 3 x 3 FEDER IAA KR, HH R 是 旋转 矩阵 ， 所 以 
我 们 可 以 将 书 乘 以 标定 和 矩阵 的 着 ， 然 后 将 第 三 列 符 换 为 前 两 列 的 交叉 乘积 ， 以 此 来 
恢复 第 三 列 。 


作为 合理 性 验证 ， 我 们 可 以 使 用 新 矩阵 投影 标记 平面 的 一 个 点 ， 然 后 检查 投影 后 的 
扎 征 否 与 使 用 第 一 个 照相 机 和 单 应 性 矩阵 变换 后 的 点 相同 。 你 会 发 现 ， 榨 制 侣 上 得 
到 了 相同 的 输出 结 采 。 


你 可 以 用 如 下 所 示 的 代码 来 可 视 化 这 些 投影 后 四 扩 : 








imo = array(Image.open('book frontal.JPG')) 
im1 = array(Image.open('book perspective.JPG')) 


# 底部 正方 形 的 二 维 投影 

figure() 

imshow( imo) 

plot(box cam1[0,:|,box cam1[1,:|,linewidth=3) 


# 使 用 H 对 二 维 投 影 进行 变换 

figure() 

imshow(im1) 

plot(box_trans[0,:],box trans[1,:], linewidth=3) 
# =AE AR 

figure() 

imshow(im1 ) 
plot(box_cam2[0,:],box_cam2[1,:],linewidth=3) 


show( ) 


该 代码 绘制 出 如 图 4-4 所 示 的 三 幅 图 像 。 为 了 能 够 在 后 面 的 例子 中 再 次 使 用 这 些 计 
算 的 结果 ， 我 们 可 以 使 用 Pickle 将 这 些 照 相机 和 矩阵 保存 起 来 : 


import pickle 
with open('ar_camera.pkl','w') as f: 


pickle. dump(K, f) 
pickle. dump(dot(linalg.inv(K),cam2.P),f) 








现在 我 们 已 经 学 会 计算 给 定 平 面 场景 物体 的 照相 机 和 矩阵。 我 们 结合 特征 匹配 和 单 
应 性 和 矩阵， 以 及 照相 机 标定 技术 ， 人 简单 演示 了 如 何在 一 幅 图 像 上 放置 一 个 立方 体 。 
有 了 照相 机 的 姿态 估计 技术 ， 我 们 现在 就 具备 了 创建 简单 增强 现实 应 用 的 基本 技 
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4.4 ”增强 现实 


增强 现实 (Augmented Reality, AR) 是 将 物体 和 相应 信息 放置 在 图 像 数 据 上 的 一 
系列 操作 的 总 称 。 最 经 典 的 例子 是 放置 一 个 三 维 计算 机 图 形 学 模型 ， 使 其 看 起 来 属 
于 该 场景 ， 如 果 在 视频 中 ， 该 模型 会 随 着 照相 机 的 运动 很 自然 地 移动 。 如 上 一 节 所 
示 ， 给 定 一 幅 带 有 标记 平面 的 图 像 ， 我 们 能 够 计算 出 照相 机 的 位 置 和 姿态 ， 使 用 这 
些 信息 来 放置 计算 机 图 形 学 模型 ， 能 够 正确 表示 它们 。 在 本 章 的 最 后 一 节 ， 我 们 将 
介绍 如 何 建立 一 个 简单 的 增强 现实 例子 。 其 中 ， 我 们 会 用 到 两 个 工具 包 : PyGame 
和 PyOpenGL, 








4.4.1 PyGame 和 PyOpenGL 

PyGame 是 非常 流行 的 游戏 开发 工具 包 ， 它 可 以 非常 简单 地 处 理 显示 窗口 、 输 入 设 
备 、 事 件 ， 以 及 其 他 内 容 。PyGame 是 开源 的 ， 可 以 从 http://www.pygame.org/ 下 
载 。 事 实 上 ， 它 是 一 个 Python 绑 定 的 SDL 游戏 引擎 。 你 可 以 查看 附录 A 来 获取 
关于 安装 的 帮助 。 你 还 可 以 查看 文献 [21] 来 获取 关于 PyGame 工具 包 的 更 多 编程 
AREE 





PyOpenGL 是 OpenGL 图 形 编 程 的 Python 绑 定 接口 。OpenGL 可 以 安装 在 几乎 所 
有 的 系统 上 ， 并 且 具 有 很 好 的 图 形 性 能 。OpenGL 具有 跨 平 台 性 ， 能 够 在 不 同 的 操 
作 系 统 之 则 工作 。 关 于 OpenGL 的 更 多 信息 ， 参 见 http://www.opengl.org/。 在 开 
始 页 面 (http://www.opengl.org/wiki/Getting_started)， 有 人 针对 初学 者 的 很 多 资源 。 
PyOpenGL 是 开源 的 ， 并 且 易 于 安装 。 你 可 以 从 附 好 A 了 解 关 于 PyOpenGL 更 多 内 
容 。 你 同样 可 以 在 项 目 网 页 http://pyopengl.sourceforge.net/ 获取 更 多 细 市 内 容 。 


BUSA MER F OpenGL 编程 的 绝 大 部 分 内 容 。 相 反 ， 我 们 在 这 里 只 讲述 重要 的 
内 容 ， 例 如 如 何在 OpenGL 中 使 用 照相 机 和 匹 阵 ， 如 何 设置 一 个 基本 的 三 维 模型 。 你 
可 以 从 PyOpenGL-Demo 工具 包 (http://pypi.python.org/pypi/PyOpenGL-Demo) 获取 
一 些 很 好 的 例子 和 演示 。 如 果 你 不 熟悉 PyOpenGL， 那 么 该 工具 包 征 个 很 好 的 开始 。 


我 们 使 用 OpenGL 将 一 个 三 维 模 型 放置 在 一 个 场景 中 。 为 了 使 用 PyGame 和 
PyOpenGL 工具 包 来 完成 该 应 用 ， 需 要 在 脚本 的 开始 部 分 载 和 下面 的 命令 : 
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from OpenGL.GL import * 
from OpenGL.GLU import * 
import pygame, pygame. image 
from pygame.locals import * 


你 可 以 看 到 ， 这 里 主要 使 用 OpenGL 中 的 两 个 部 分 : GL 部 分 包含 所 有 以 “gl” 开 
头 的 函数 ， 其 中 包含 我 们 需要 的 大 部 分 国 数 ;，GLU ae > 是 OpenGL 的 实用 国 数 库 ， 
里 面包 含 了 一 些 高 层 的 函数 。 我 们 主要 使 用 它 来 设置 照相 机 投影 。pygame 部 分 用 
来 设置 窗口 和 事件 控制 ， 其 中 pygame.image 用 来 载 入 图 像 和 创建 OpenGL 的 纹理 ， 
pygame. locals 用 来 设置 OpenGL 的 显示 区 域 。 


需要 对 一 个 OpenGL 场景 进行 两 个 部 分 的 设置 ;投影 和 视图 矩阵 的 建 模 。 让 我 们 一 
起 来 学 习 如 何 由 针 孔 照相 机 来 创建 这 些 矩 阵 。 


4.4.2 ”从 照相 机 和 矩阵 到 OpenGL 格 式 


OpenGL 使 用 4x4 的 矩阵 来 表示 变换 (包括 三 维 变 换 和 投影 )。 这 和 我 们 使 用 
的 3x4 照 相机 矩阵 略 有 差别 。 但 是 ， 照 相机 与 场景 的 变换 分 成 了 两 个 和 矩阵， 
GL_PROJECTION 46 (#40 GL_MODELVIEW 46/4, GL_PROJECTION 4# BE 4b M K] 
像 成 像 的 性 质 ， 等 价 于 我 们 的 内 标定 矩阵 KK。GL_MODELVIEW Etib Ey (As Fu HR 
相机 之 间 的 三 维 变换 关系 ， 对 应 于 我 们 照相 机 生 阵 中 的 丸和 上 部 分 。 一 个 不 同 之 处 
是 ， 假 设 照相 机 为 坐标 系 的 中 心 ，GL_MODELVIEW 矩阵 实际 上 包含 了 将 物体 放置 
在 照相 机 前 面 的 变换 。OpenGL 有 很 多 特性 ， 我 们 会 在 下 面 例子 中 一 一 讲解 。 


假设 我 们 已 经 获得 了 标定 好 的 照相 机 ， 即 已 知 标 定 从 阵 外 ， 下 面 的 函数 可 以 将 照相 
机 参数 转换 为 OpenGL 中 的 投影 矩阵 : 








def set projection from camera(K): 


“从 照相 机 标定 矩阵 中 获得 视图 "” 


glMatrixMode(GL PROJECTION) 
glLoadIdentity() 


f= KLO 0] 

fy = K[{1,1] 

fovy = 2*arctan(0.5*height/fy)*180/pi 
aspect = (width*ty)/(height*fx) 


# 定义 近 的 和 远 的 剪裁 平面 
near = 0.1 
far = 100.0 





JJG ED 


E 设 定 透视 
gluPerspective(fovy, aspect, near, far) 
glViewport(0,0,width, height) 


我 们 假设 标定 矩阵 如 (4.3) ARE RE, JE DAA RAN AUD. FP eR 
glMatrixMode() i LEERE ik BA GL_PROJECTION, 7% PEW AT SSE LLIK PB 
阵 。 SRI, glloadIdentity() BCH AAEM Be E ARMEE, KEE EA A 
操作 。 然 后 ， 我 们 根据 图 像 的 高 度 、 照 相机 的 焦 跑 以 及 纵横 比 ， 计 算出 视图 中 的 垂 
直 场 。OpenGL 的 投影 同样 具有 和 近 距 离 和 迁 距离 的 裁剪 平面 来 限制 场景 拍摄 的 座 度 
汇 围 。 我 们 设置 近 深 度 为 一 个 小 的 数值 ， 使 得 照相 机 能 够 包含 最 近 的 物体 ， 而 远 深 
度 设置 为 一 个 大 的 数值 。 我 们 使 用 GLU 的 实用 函数 gluPerspective() Kix BiH? Fs 
阵 ， 将 整个 图 像 定 义 为 视图 部 分 〈 也 就 是 显示 的 部 分 )。 和 下 面 的 模拟 视图 国 数 相 
似 ， 你 可 以 使 用 glLoadMatrixf() 国 数 的 一 个 选项 来 定义 一 个 完全 的 投影 矩阵 。 当 倘 
单 版 本 的 标定 矩阵 不 够 好 时 ， 可 以 使 用 完全 投影 算 阵 。 


模拟 视图 矩阵 能 够 表示 相对 的 诈 转 和 平移 ， 该 变换 将 该 物体 放置 在 照相 机 前 〈 效 末 
古 照 相机 在 原点 上 )。 模 拟 视 图 矩阵 是 个 典型 的 4x4 和 矩阵 ， 如 下 所 示 : 


R t 
0 1 
其 中 ，R 是 旋转 矩阵 ， 列 向 量 表示 3 AERD, toe PS le, OERA 


图 矩阵 时 ， 旋 转 矩 阵 需 要 包括 所 有 的 旋转 (物体 和 坐标 系 的 旋转 )， 可 以 将 单个 旋转 
BY AA AEA IK Ft He FS AERE 


P Ty AY PA Ae SE BL An faf AR PS BR os E EREJE AI 3 x 4 EPFL BR AALS RE CK PAK 相 
Fe), ， 并 创建 一 个 模拟 视图 : 











def set_modelview from camera(Rt) : 


"e 从 照相 机 姿态 中 获得 模拟 视图 矩阵 """ 


glMatrixMode(GL MODELVIEW) 
glLoadIdentity() 


# 围绕 x 轴 将 茶壶 旋转 90 HE, 使 z 轴 间 上 
Rx = array([[1,0,0],[0,0,-1],[0,1,0]]) 


# 获得 旋转 的 最 佳 逼近 


注 1: 这 是 个 奇怪 的 处 理 方式 ， 但 是 只 需要 处 理 GL PROJECTION 和 GL MODELVIEW 两 个 矩阵 ， 所 以 是 
可 行 的 。 
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Re IRE foe 34 

U,S,V = linalg.svd(R) 

R = dot(U,V) 

R[0,:] = -R[0,:] # 改变 x 轴 的 符号 


# 获得 平移 量 
本 


# 获得 4x4 的 模拟 视图 矩阵 
M = eye(4) 

M[:3,:3] = dot(R,Rx) 

ME i353]. = 


E 转 置 并 压 平 以 获取 列 序数 值 
M = M. 
m = M.flatten() 


# PE ALA R FE RAD AERE 
glLoadMatrixf(m) 


在 上 面 函 数 中 ， 我 们 首先 切换 到 GL_MODELVIEW 4624, Xa HBF, 3 
后 ， 由 于 需要 旋转 该 物体 (你 将 在 下 面 看 到 )， 所 以 我 们 创建 一 个 90 EHHE FE 
阵 。 接 下 来 ， 由 于 估计 照相 机 和 钨 阵 时 ， 可 能 会 有 错误 或 者 噪声 和 干扰， 所 以 我 们 确保 
He AE LAB BE AY Tie FR BD oy WAS ee D EFR EE, AER VERE SVD 分 解 方 法 ， 旋 转 和 矩阵 
的 最 佳 逼 近 可 以 通过 R=UTV 来 获得 。 由 于 OpenGL 中 的 坐标 系 和 上 面 用 到 的 有 点 不 
同 ， 所 以 我 们 将 * 轴 翻 转 。 然 后 ， 我 们 将 模拟 视图 矩阵 M 设置 为 旋转 矩阵 的 乘积 。 
glloadMatrixf() 国 数 通过 输入 参数 为 按 列 排列 的 16 个 数值 数组 ， 来 设置 模拟 视图 。 
将 有 年 阵 转 置 ， 然 后 压 平 并 输入 gllLoadMatrixf() IRC. 


443 ”在 图 像 中 放置 虚拟 物体 

我 们 需要 做 的 第 一 件 事 是 将 图 像 (打算 放置 虚拟 物体 的 图 像 ) 作为 背景 添加 进来 。 
在 OpenGL 中 ， 该 操作 可 以 通过 创建 一 个 四 边 形 的 方式 来 完成 ， 该 四 边 形 为 整个 视 
图 。 完 成 该 操作 最 简单 的 方式 是 绘制 出 四 边 形 ， 同 时 将 投影 和 模拟 试图 矩阵 重 置 ， 
使 得 每 一 维 的 坐标 范围 在 -1 到 1 之 间 。 


下面 的 函数 可 以 载 入 一 幅 图 像 ， 然 后 将 其 转换 成 一 个 OpenGL 纹理 ， 并 将 该 纹理 放 
置 在 四 边 形 上 











def draw _background(imname) : 


""" 使 用 四 边 形 绘制 背景 图 像 """ 





# 载 入 背景 图 像 (应 该 是 .bmp 格式 ) ， 转 换 为 OpenGL 纹理 
bg image = pygame.image.load(imname).convert() 
bg data = pygame.image.tostring(bg image, "RGBX",1) 


glMatrixMode(GL_MODELVIEW) 
glLoadIdentity() 
glClear(GL COLOR BUFFER BIT | GL DEPTH BUFFER BIT) 


H 绑 定 纹理 

glEnable(GL_TEXTURE_ 2D) 

glBindTexture(GL_TEXTURE_2D,glGenTextures (1) ) 
glTexImage2D(GL_TEXTURE_2D,0,GL_RGBA,width,height,0,GL_RGBA,GL UNSIGNED BYTE,bg data) 
glTexParameterf(GL_TEXTURE_2D,GL_ TEXTURE MAG fiLTER,GL_NEAREST) 
glTexParameterf(GL_TEXTURE_2D,GL_ TEXTURE MIN fiLTER,GL NEAREST) 


# 创建 四 方形 填充 整个 窗口 

glBegin(GL_QUADS) 

glTexCoord2f(0.0,0.0); glVertex3f(-1.0,-1.0,-1.0) 
glTexCoord2f(1.0,0.0); glVertex3f( 1.0,-1.0,-1.0) 
altex oord? f 05170) 5- eo lVertexst( 10; OD) 
glTexCoord2f(0.0,1.0); glVertex3f(-1.0, 1.0,-1.0) 
glEnd() 


# 清除 纹理 
g1lDeleteTextures (1) 


该 函数 首先 使 用 PyGame H HY — tE ph Bi oe a A — a RR, KiE E DNE A 0 E 
PyOpenGL 中 使 用 的 原始 字符 串 表 示 。 然 后 ， 重 置 模拟 视图 ， 清 除 颜 色 和 次 度 缓存 。 
接 下 来 ， 绑 定 这 个 纹理 ， 使 其 能 够 在 四 边 形 和 指定 插值 中 使 用 它 。 四 边 形 是 在 每 一 
维 分 别 为 -1 和 1 的 点 上 定义 的 。 注 意 ， 纹 理 图 像 的 坐标 是 从 0 到 1。 最后， 清除 该 
纹理 ， 避 免 其 干扰 之 后 准备 绘制 的 图 像 。 


现在 已 经 准备 好 将 物体 放置 人 场景 中 。 我 们 将 使 用 “hello world” 的 计算 机 图 形 学 
例子 ，Utah 茶壶 (http://en.wikipedia.org/wiki/Utah_teapot)。 这 个 茶 赤 有 丰富 的 历 
E, Æ GLUT 用 作 一 个 标准 形状 : 


from OpenGL.GLUT import * 
glutSolidTeapot(size) 


该 命令 产生 一 个 相对 大 小 为 size WIA ae he 。 


下 面 的 国 数 将 会 设置 颜色 和 其 他 特性 ， 产 生 一 个 红色 的 漂亮 茶壶 : 





def draw teapot(size): 
unn 在 原点 处 绘制 红色 茶壶 unn 
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glEnable(GL_LIGHTING) 
glEnable(GL_LIGHTO) 
glEnable(GL_DEPTH TEST) 
glClear(GL DEPTH BUFFER BIT) 


# Ze nllZT As ae 
glMaterialfv(GL_FRONT,GL AMBIENT, [0,0,0,0]) 
glMaterialfv(GL_FRONT,GL DIFFUSE, [0.5,0.0,0.0,0.0]) 
glMaterialfv(GL_FRONT,GL_SPECULAR,[0.7,0.6,0.6,0.0]) 
glMaterialf(GL_FRONT,GL_SHININESS,0.25*128.0) 
glutSolidTeapot (size) 


EEK BC, PY tr BT OKT 6 he Fe A — EET. XT tb A GL_LIGHTO 和 
GL_LIGHT! #, ZEA fil, Fe AREA — RI. glEnable() ria Kea OpenGL 
HY — Hee E, X HORE PEE EAS OR EE LA. SA RE By A E H 48 AY 
glDisable() KARÉK. HEP, REME, E I HR ECR FE Ze HR 
( 远 处 的 物体 不 能 绘制 在 近 处 物体 的 前 面 )， 然 后 清理 深度 缓存 。 接 下 来 ， 指 定 物体 
的 物质 特性 ， 例 如 漫 反 射 和 和 镜面 反射 颜色 。 在 最 后 一 行 代码 中 ， 将 指定 的 物质 特性 
加 入 到 Utah $E. 


444 综合 集成 
下 面 的 完整 脚本 可 以 生成 如 图 4-5 所 示 的 图 像 (假设 你 已 经 将 上 面 的 函数 添加 到 了 
同一 个 文件 中 ) : 


from OpenGL.GL import * 
from OpenGL.GLU import * 
from OpenGL.GLUT import * 
import pygame, pygame. image 
from pygame.locals import * 
import pickle 


width,height = 1000, 747 


def setup(): 
ni" 设置 窗口 和 pygame 环境 """ 
pygame.init() 
pygame.display.set_mode((width,height), OPENGL | DOUBLEBUF) 
pygame.display.set_caption('OpenGL AR demo') 


# 载 入 照相 机 数据 

with open('ar_camera.pkl','r') as f: 
K = pickle. load(f) 
Rt = pickle. load(f) 





setup() 

draw_background('book_ perspective. bmp' ) 
set projection from camera(K) 
set_modelview from camera(Rt) 
draw_teapot(0.02) 


while True: 
event = pygame.event.poll() 
if event.type in (QUIT,KEYDOWN): 
break 

pygame. display. flip() 





A A A OpenGL AR demo 





DAO OpenGL AR demo 








图 4-5: 增强 现实 。 使 用 由 特征 匹配 计算 出 的 照相 机 参数 ， 将 一 个 计算 机 图 形 学 模型 放置 在 
场景 中 的 书本 上 : 将 Utah 茶壶 按照 和 坐标 灿 对 齐 的 方式 显示 出 来 (上 ) ; 进行 合理 性 验证 ， 
查看 原点 的 位 置 (T) 
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首先 ， 该 脚本 使 用 Pickle 载 入 照相 机 标定 矩阵 ， 以 及 照相 机 和 矩阵 中 的 旋转 和 平移 
分 。 假 设 这 些 信息 已 经 按照 4.3 节 的 描述 进行 保存 。setup() 函数 会 初始 化 PyGame， 
将 窗口 设置 为 图 像 的 大 小 ， 绘 制图 像 区 域 为 两 倍 的 OpenGL 窗口 缓存 大 小 。 接 下 来 ， 
载 入 背景 图 像 ， 使 其 与 窗口 相符 。 然 后 ， 设 定 照 相机 和 模拟 视图 和 矩阵。 最后， 在 正 
确 的 位 置 上 绘制 出 茶 豆 。 


在 PyGame 中 ， 使 用 带 有 对 所 有 变化 进行 定期 询问 的 无 限 循环 来 处 理事 件 。 这 些 事 
件 可 以 为 键盘 、 忌 标 ， 或 者 其 他 。 在 这 个 例子 中 ， 我 们 检查 应 用 是 否 退 出 ， 或 者 是 
个 有 按键 按 下 ， 如 采 是 ， 则 退出 这 个 循环 。pygame.display.flip() 命令 将 会 在 屏 医 
上 绘制 出 物体 。 


程序 的 输出 结果 如 图 4-5 所 示 。 可 以 看 到 ， 物 体 的 朝向 是 正确 的 (在 图 4-4 中 ， 茶 
过 和 立方 体 的 边 是 对 齐 的 ) 。 为 了 验证 放置 的 正确 性 ， 你 可 以 通过 给 size 变量 传递 
一 个 较 小 的 数值 ， 将 茶壶 变 小 。 在 图 4-4 中 ， 和 茶壶 应 该 放置 在 靠近 立方 体 坐 标 为 [0， 
0, 0] 的 角 上 。 图 4-5 给 出 了 一 个 例子 。 





4.4.5” 载 入 模型 

EZR RAR ZA, RM Aaa Pa: 载 入 并 显示 三 维 模型 。 你 可 以 在 http:// 
www.pygame.org/wiki/OBJFileLoader 了 解 如 何在 PyGame 中 载 入 保存 在 .obj 格式 文 
件 中 的 模型 。 除 此 之 外 ， 你 还 可 以 在 http://en.wikipedia.org/wiki/Wavefront_.obj_file 
PARF .obj 以 及 其 他 相关 文件 格式 的 更 多 内 容 。 


下 面 使 用 一 个 基本 的 例子 来 说 明 其 使 用 方法 。 我 们 将 使 用 一 个 免费 的 玩具 飞机 模 
型 ， 模 型 来 自 http:Wwww.oyonale.com/modeles.php 。 下 载 其 .obj 文件 ， 然 后 保存 为 
toyplane.obj。 当 然 ， 你 也 可 以 用 任何 其 他 模型 替换 ， 下 面 的 代码 不 变 。 


假设 已 经 下 载 模型 文件 并 命名 为 objloader.py, 将 下 面 的 函数 添加 到 茶壶 例子 的 代码 
SHEAR : 











def load and draw model(tilename): 
""" BEM objloader.py, JA .obj 文件 中 装载 模型 
假设 路 径 文件 夹 中 存在 同名 的 .mtl 材料 设置 文件 """ 
glEnable(GL_LIGHTING) 
glEnable(GL_LIGHTO) 
glEnable(GL_DEPTH TEST) 
glClear(GL DEPTH BUFFER BIT) 


# 设置 模型 颜色 


注 1: 模型 由 Gilles Tran 提供 (共享 创意 许可 )。 
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glMaterialfv(GL_FRONT,GL AMBIENT, [0,0,0,0]) 
glMaterialfv(GL_FRONT,GL DIFFUSE, [0.5,0.75,1.0,0.0]) 
glMaterialf(GL_FRONT,GL SHININESS,0.25*128.0) 


# 从 文件 中 载 入 

import objloader 

obj = objloader.0BJ( filename, swapyz=True) 
glCallList(obj.gl list) 


和 前 面 一 样 ， 我 们 首先 设置 模型 的 照明 条 件 和 颜色 属性 。 接 下 来 ， 我 们 将 模型 载 入 
一 个 obj 对 象 中 ， 然 后 在 文件 中 执行 OpenGL 的 调用 。 


你 可 以 在 相应 的 .mt 文件 中 设置 纹理 和 材料 属性 。 实 际 上 ，objloader 模块 需要 一 个 
含有 材料 设置 的 文件 。 我 们 采用 仪 创建 一 个 小 材料 文件 的 实用 方法 ， 而 不 修改 脚本 。 
在 这 个 例子 中 ， 我 们 仅 指 定 了 颜色 信息 。 

使 用 下 面 的 命令 来 创建 toyplane.mtl 文件 : 


newmtl lightblue 
Kd: 055. 0675 130 
illum 1 


上 面 的 命令 将 物体 的 漫 反 射 颜色 设置 为 浅 灰 蓝 色 。 现 在 ， 确 保 将 .obj 文件 中 的 
“usemtl” FERRA: 


usemtl lightblue 

我 们 将 添加 纹理 留 作 练习 。 将 上 面 例子 中 的 draw _teapot() 命令 替换 为 : 
load and draw model('toyplane.obj') 

程序 就 会 生成 如 图 4-6 所 示 的 窗口 图 像 。 


这 是 本 书 关 于 增强 现实 和 OpenGL 最 深入 的 例子 。 学 习 了 标定 矩阵、 计算 照相 机 姿 
态 、 将 照相 机 转变 成 OpenGL 格式 ， 以 及 在 场景 中 显示 模型 等 方法 ， 你 已 经 具备 了 
继续 探索 增强 现实 的 基础 。 在 下 一 市 中 ,我 们 将 在 不 使 用 标记 物 的 情况 下 ， 继 续 学 
习 照 相机 模型 ， 计 算 三 维 结构 以 及 照相 机 姿态 。 








照相 机 模型 与 增强 现实 | 105 





AAA OpenGL AR demo 














图 4-6: 从 .obj 文件 载 入 三 维 模型 ， 并 使 用 由 特征 匹配 计算 出 的 照相 机 参数 将 其 放置 在 书 
AE 


练习 


(1) 修改 用 于 图 4-2 运动 的 示例 代码 ， 使 其 能 够 对 后 而 非 照 相机 进行 变换 ， 你 应 该 会 
得 到 相同 的 图 像 。 使 用 不 同 的 变换 进行 实验 ， 然 后 绘制 出 相应 的 结 来 。 

(2) 一 些 牛 津 多 视图 数据 集 已 经 给 定 了 照相 机 和 矩阵 。 对 一 个 这 样 的 数据 集 ， 计 算 其 照 
相机 位 置 ， 并 且 绘 制 出 照相 机 的 路 人 符 。 这 和 你 在 图 像 中 看 到 的 是 否 吻合 ? 

(3) 拍摄 一 些 带 有 平面 标记 物 和 物体 的 场景 图 像 。 将 图 像 的 特征 和 一 幅 全 景 图 像 的 特 
征 相 匹配 ， 计 算出 每 幅 图 像 照 相机 位 置 的 姿态 。 绘 制 出 照相 机 的 轨迹 ， 以 及 标记 
物 的 平面 。 如 末 你 喜欢 ， 也 可 以 在 图 像 中 加 入 特征 点 。 

(4) 在 增强 现实 的 例子 中 ,假设 物 体 放 午 在 原点 ， 并 且 只 将 照相 机 的 位 置 应 用 到 模拟 
视图 矩阵 中 。 将 物体 之 则 的 变换 加 入 到 和 矩阵 中 来 修改 该 例子 ， 使 得 在 不 同 的 位 置 
放置 一 些 物 体 。 例 如 ， 在 标记 位 置 处 放置 从 壶 网 格 。 

(5) UGE .obj 模型 文件 的 在 线 文 档 ， 学 习 如 何 使 用 纹理 模型 。 找 一 个 模型 (或 者 创 
GACH), Waa mel pox 
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本 章 讲 解 如 何 处 理 多 个 视图 ， 以 及 如 何 利 用 多 个 视图 的 几何 关系 来 恢复 照相 机 位 置 
童生 和 三 维 结构 。 通 过 在 不 同 视点 担 摄 的 图 像 ， 我 们 可 以 利用 特征 匹配 来 计算 出 三 
维 场景 点 以 及 照相 机 人 位置。 本草 会 介绍 一 些 基 本 的 方法 ， 展 示 一 个 三 维 重建 的 完整 
例子 ， 本 重 最 后 将 介绍 如 何 由 立体 图 像 进 行 致密 次 度 重 建 。 


5.1 外 极 几 何 


多 视图 几何 征 利用 在 不 同 视 点 所 拍摄 图 像 则 的 关系 ， 来 研究 照相 机 之 间或 者 特征 之 
间 关 系 的 一 门 科 学 。 图 像 的 特征 通 笛 是 兴 趣 点 ， 本 章 使 用 的 也 是 兴趣 点 特征 。 多 视 
图 几何 中 最 重要 的 内 容 古 双 视 图 几何 。 


如 果 有 一 个 场景 的 两 个 视图 以 及 视图 中 的 对 应 图 像 点 ， 那 么 根据 照相 机 间 的 空间 相 
对 位 置 和 关系、 照相 机 的 性 质 以 及 三 维 场景 点 的 位 置 ， 可 以 得 到 对 这 些 图 像 点 的 一 些 
几何 关系 约束 。 我 们 通过 外 极 几 何 来 描述 这 些 几 何 关 系 。 本 古人 简要 介绍 外 极 几 何 的 
基本 内 容 。 关 于 外 极 几 何 的 更 多 内 容 ， 参 阅 文 献 [13]. 
没有 关于 照相 机 的 先 验 知识 ， 会 出 现 固 有 二 义 性 ， 因 为 三 维 场景 点 X 经 过 4x4 的 
单 应 性 矩阵 五 变换 为 HX 后 ， 则 HX 在 照相 机 PA 里 得 到 的 图 像 点 和 X 在 照相 机 
已 里 得 到 的 图 像 点 相同 。 利 用 照相 机 方程 ， 可 以 将 上 述 问 题 描述 为 : 

Ax = PX = PH ' HX = PX 
因此 ， 当 我 们 分 析 双 视图 几何 关系 时 ， 总 是 可 以 将 照相 机 间 的 相对 位 置 关 系 用 单 应 
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PE AEB OA RE. X EAI J TE RE Be ah eh RAAE, BR ah ae BL EAE BS He 
坐标 系 。 一 个 比较 好 的 做 法 是 ， 将 原点 和 坐标 轴 与 第 一 个 照相 机 对 齐 ， 则 : 


P = K [I| 0] F0 P, = KlR|d 





为 了 方便 读者 阅读 ， 我 们 在 这 里 采取 第 4 ÆW, HP K, AK, EEEE, R 
征 第 二 个 照相 机 的 旋转 和 矩阵 ，# 征 第 二 个 照相 机 的 平移 同 量 。 利 用 这 些 照 相机 参数 矩 
阵 ， 我 们 可 以 找到 点 X AV Bee A x, Fx, 《分 别 对 应 于 投影 矩阵 Pl 和 P,) 的 关系 。 
这 样 ， 我们 可 以 从 寻找 对 应 的 图 像 出 发 ， 恢 复 照 相机 参数 矩阵 。 


同一 个 图 像 点 经 过 不 同 的 投影 矩阵 产生 的 不 同 投影 所 必须 请 足 : 





其 中 : 
F=K;'S.R K;' 
HERE S, Ay oe HP RGB BE : 
O -b6 hb 
Si=|| b 0-h (5.2) 
= a. 6 








公式 (5.1) AYMARA. FARE FAZER IMAM, 2k oh 4e HY DA h HR LAY BS Bie 
矩阵 (相对 旋转 R 和 平移 1t) 表示 。 由 于 det(T)=0， 所 以 基础 矩阵 的 秩 小 于 等 于 2. 
我 们 将 在 估计 忆 的 算法 中 用 到 这 些 性 质 。 


上 和 面 的 公式 表明 ， 我 们 可 以 借助 了 来 恢复 出 照相 机 参数 ， 而 下 可 以 从 对 应 的 投影 妖 

像 点 计算 出 来 。 在 不 知道 照相 机 内 参数 (K, 和 K,) 的 情况 下 ， 仅 能 恢复 照相 机 的 投 

sean 在 知道 照相 机 内 参数 的 情况 下 ， 重 建站 基于 度量 的 。 所 谓 度量 重建 ， 
能 够 在 三 维 重建 中 正确 地 表示 距离 和 角度 。 


利用 上 面 的 理论 处 理 一 些 图 像 数 据 前 ， 我 们 还 需要 了 解 一 些 几 何 学 知识 。 给 定 图 像 
中 的 一 个 点 ， 例 如 第 二 个 视图 中 的 图 像 点 于 ， 利 用 公式 (5.1)， 我 们 找到 对 应 第 一 
幅 图 像 的 一 条 直线 : 





x Fx=ľx=0 


其 中 x = 0 是 第 一 幅 图 像 中 的 一 条 直线 。 这 条 线 称 为 对 应 于 上 把 x 的 外 极 线 ， 也 就 


TE 1: 重建 的 绝对 尺度 不 能 恢复 ， 但 在 实际 中 ， 这 并 不 是 个 问题 。 
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征 说 ， 点 EBI RR PIAA EERE. MA, AR mE AY LA RY Do 
点 的 搜索 限制 在 外 极 线 上 。 


外 极 线 都 经 过 一 点 e， 称 为 外 极点 。 实 际 上 ， 外 极点 是 另 一 个 照相 机 交心 对 应 的 图 像 
尽 。 外 极点 可 以 在 我 们 看 到 的 图 像 外 ， 这 取决 于 照相 机 间 的 相对 方 同 。 因 为 外 极点 
在 所 有 的 外 极 线 上 ， 所 以 Fei=0。 因 此 ， 我 们 可 以 通过 计算 环 的 零 癌 量 来 计算 出 外 极 
尽 。 同 理 ， 鸭 一 个 外 极 后 可 以 通过 计算 ezF= 0 得到。 外 极点 和 外 极 线 如 图 5-1 所 示 。 


4 和 


5-1: 外 极 几何 示意 图 。 在 这 两 个 视图 中 ,分别 将 三 维 点 X 投影 为 xX; 和 xz。 两 个 照相 机 中 
心 之 间 的 基线 C1 和 C, 与 图 像 平 面相 交 于 外 极点 ef 和 e。。 线 h 和 l 称 为 外 极 线 


5.1.1 一 个 简单 的 数据 集 

在 接 下 来 的 几 方 中， 我们 需要 一 个 带 有 图 像 点 、 三 维 点 和 照相 机 参数 第 阵 的 数据 集 。 
我 们 这 里 使 用 一 个 牛津 多 视图 数据 集 ， 从 http://www.robots.ox.ac.uk/~vgg/data/data- 
mview.html 可 以 下 载 Mertonl 数据 的 压缩 文件 。 下 面 的 脚本 可 以 加 载 Mertonl 的 数据 : 








import camera 


# 载 入 一 些 图 像 
im1 = array(Image.open('images/001.jpg')) 
im2 = array(Image.open('images/002.jpg' )) 


E 载 入 每 个 视图 的 二 维 点 到 列表 中 
points2D = [loadtxt('2D/o0'+str(i+1)+'.corners').T for i in range(3)] 


# 载 人 三 维 点 
points3D = loadtxt('3D/p3d').T 


# 载 入 对 应 


corr = genfromtxt('2D/nview-corners' ,dtype='int' ,missing='*' ) 


# 载 入 照相 机 和 矩阵 到 Camera 对 象 列 表 中 
P = [camera.Camera(loadtxt('2D/00'+str(i+1)+'.P')) for i in range(3) | 
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上 面 的 程序 会 加 载 前 两 个 图 像 ( 共 三 个 )、 三 个 视图 中 的 所 有 图 像 特征 点 、 对 应 不 
同 视图 图 像 点 重建 后 的 三 维 点 以 及 照相 机 参数 矩阵 (使 用 上 一 章 的 Camera 类 )。 这 
里 我 们 使 用 loadtxt() 函数 读 取 文本 文件 到 NumPy 数组 中 。 因 为 并 不 是 所 有 的 点 都 可 
见 ， 或 都 能 够 成 功 匹 配 到 所 有 的 视图 ， 所 以 对 应 数据 里 包含 了 缺失 的 数据 。 加 载 对 
应 数据 时 需要 考虑 这 一 点 。genfromtxt() 图 数 通过 将 缺失 的 数值 〈 在 文件 中 用 * 表 
示 ) 填充 为 -1 来 解决 这 个 问题 。 


将 上 面 的 代码 保存 到 一 个 文件 ， 例 如 load_vggdata.py， 然 后 使 用 命令 execfile() 可 
以 很 方便 地 运行 上 面 的 脚本， 从 而 获取 所 有 的 数据 : 


execfile('load vggdata.py' ) 
下 面 来 可 视 化 这 些 数据 。 将 三 维 的 点 投影 到 一 个 视图 ， 然 后 和 观测 到 的 图 像 点 比较 : 


# 将 三 维 点 转换 成 齐 次 坐标 表示 ， 并 投影 
X = vstack( (points3D,ones(points3D.shape[1])) ) 
x = P[O].project(X) 


# 在 视图 1 中 绘制 点 

figure() 

imshow(im1 ) 
plot(points2D[0][0],points2D[0][1],'*') 
axis off) 


figure() 

imshow(im1) 
plore] AIE] re) 
axis(’oft") 


show( ) 





上 面 的 代码 绘制 出 第 一 个 视图 以 及 该 视图 中 的 图 像 上 后 。 为 比较 方便 ， fea AZ 
制 在 男 一 张 图 上 ， 如 图 5-2 所 示 。 如 来 仔 细 观 察 ， 你 会 发 现 第 二 幅 图 比 第 一 幅 图 多 
一 些 点 。 这 些 多 出 的 点 是 从 视图 2 和 视图 3 重建 出 来 的 ， 而 不 在 视图 1 中 。 





TE 1: 事实 上 ， 这些 特征 点 是 2.1 节 中 的 Harris 角 点 。 
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5-2; 牛津 multi-view 数据 集中 的 Merton1 MES: 视图 1 与 图 像 点 (AZ); 视图 1 与 投 
影 的 三 维 点 ( 右 ) 


5.1.2 用 Matplotlib 绘 制 三 维 数据 

为 了 可 视 化 三 维 重建 结果 ， 我 们 需要 绘制 出 三 维 图 像 。Matplotlib 中 的 mplot3d 工具 
包 可 以 方便 地 绘制 出 三 维 点 、 线 、 等 轮廓 线 、 表 面 以 及 其 他 基本 图 形 组 件 ， 还 可 以 
通过 图 像 窗 口 控件 实现 三 维 旋转 和 缩放 。 

可 以 通过 在 axes 对 象 中 加 上 projection="3d" 关键 字 实 现 三 维 绘图 ， 如 下 : 


from mpl toolkits.mplot3d import axes3d 


fig = figure() 
ax = fig.gca(projection="3d") 


# 生成 三 维 样本 点 
X,Y,Z = axes3d.get_test_data(0.25) 


# 在 三 维 中 绘制 点 
ax.plot(X.flatten(),Y.flatten(),Z.flatten(),‘'o') 


show() 


get test data() IBLE x, y 空间 按照 设 定 的 空间 间隔 参数 来 产生 均匀 的 采样 点 。 压 
平 这 些 网 格 ， 会 产生 三 列 数据 点 ， 然 后 我 们 可 以 将 其 输入 plot() 函数 。 这 样 ， 我 们 
束 可 以 在 立体 表面 上 画 出 三 维 操 。 

现在 通过 画 出 Merton EAS Beth EWES = AE AOC : 


# 绘制 三 维 点 
from mpl toolkits.mplot3d import axes3d 
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fig = figure() 
ax = fig.gca(projection='3d' ) 
ax.plot(points3D[0],points3D[1],points3D[2],'k.') 


5-3 征 三 个 不 同 视图 中 的 三 维 图 像 点 。 图 像 窗 口 和 控制 界面 外 观 效 朱 像 加 上 三 维 
旋转 工具 的 标准 画图 窗口 。 
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5-3: 使 用 Matplottib 工具 包 绘制 的 , 牛津 multi-view 数据 库 中 Mertoln1 数据 集 的 三 维 点 : 
从 上 面 和 侧 边 观测 的 视图 (E): 集 视 的 视图 ， 展 示 了 建筑 墙 体 和 屋顶 上 的 点 (中 ); 侧 视图 ， 
展示 了 一 面 墙 的 轮廓， 以 及 另 一 面 墙 上 点 的 主 视图 (6) 


5.1.3 WF: 八 点 法 
和信 点 法 是 通过 对 应 点 来 计算 基础 算 阵 的 算法 。 下 面 给 出 概述 ， 更 多 内 容 参 阅 文献 
[13] 和 文献 [14]。 


外 极 约 束 (5.1) 可 以 写成 线性 系统 的 形式 : 


1 1 1 1 1 1 1 1 Fi 
XXi X2Vi X2Wı i Wo WI 
x2 42 xy? x2 we ww? Fy 
2X1 2 Yi 2W1 °° 2 Wi 
š š š š š F, = Af=0 
Nin? ney? A = wiwe| |, 
Fs; 


其 中 , fia FAIR, X= [xi yi, wi] Pix = [x yw 是 一 对 图 像 点， 共有 n 对 对 
应 点 。 基 础 矩阵 中 有 9 个 元 素 ， 由 于 尺度 是 任意 的 ， 所 以 只 需要 8 个 方程 。 因 为 算 
法 中 需要 8 个 对 应 点 来 计算 基础 扎 阵 严 ， 所 以 该 算法 叫做 八 点 法 。 


新 建 一 个 文件 stm.py， 写 入 下 面 八 扣 法 中 最 小 化 | Af AY ea : 


def compute fundamental(x1,x2): 
""" 使 用 归 一 化 的 八 点 算法 ， 从 对 应 点 (x, x2 3 Xn 的 数组 ) 中 计算 基础 矩阵 
每 行 由 如 下 构成 : 
[x *x, x žy" XT, YORK, YY y', X, y, 1]""" 


n = x1.shape[1] 





| tebe 
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if X2vshape| T] Y= on: 
raise ValueError("Number of points don't match.") 


# 创建 方程 对 应 的 矩阵 
A = zeros((n,9)) 
for i in range(n): 
Alt lise PRICA eO Sea Og ol ss. LLO a, 
> ole OE a |e ga ls RE Bex al 
yi [res el es amc (el ass ec Be a | 





# 计算 线性 最 小 二 乘 解 
U,S,V = linalg.svd(A) 
F = V[-1].reshape(3, 3) 


# SIR F 

# 通过 将 最 后 一 个 奇异 值 置 0， 使 秩 为 2 
U,S,V = linalg.svd(F) 

Si2] 4.0 

F = dot(U,dot(diag(S),V)) 





return F 





我 们 通常 用 SVD 算法 来 计算 最 小 二 乘 解 。 由 于 上 面 算 法 得 出 的 解 可 能 秩 不 为 2〈 基 
础 矩阵 的 秩 小 于 等 于 2) ， 所 以 我 们 通过 将 最 后 一 个 各 异 值 置 0 来 得 到 秩 最 接近 2 的 
基础 第 阵 。 这 是 个 很 有 用 的 技巧 。 上 和 面 的 函数 忽略 了 一 个 重要 的 步 又 ， 对 图 像 坐标 
进行 归 一 化 ， 这 可 能 会 市 来 数值 问题 。 我 们 会 在 后 面 加 以 解决 。 


5.1.4 外 极点 和 外 极 线 
本 市 开始 提 到 过 ， 外 极点 满足 Fe,=0， 因 此 可 以 通过 计算 五 的 零 空 间 来 得 到 。 把 下 
面 的 函数 添加 到 sfm.py 中 : 


def compute epipole(F): 
"MR RERE F PIRA CATE FT ete Acs)" 


# 返回 F 的 零 空间 (Fx=0) 
U,S,V = linalg.svd(F) 
e = V[-1] 

return e/e[2| 








如 末 想 获得 另 一 幅 图 像 的 外 极点 OD De Ze Se ERIA), AER F PR Bai A 
上 述 函 数 即 可 。 











我 们 可 以 在 之 前 样本 数据 集 的 前 两 个 视图 上 运行 这 两 个 函数 : 
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import sfm 


# 在 前 两 个 视图 中 点 的 索引 
ndx = (corr[:,0]>=0) & (corr[:,1]>=0) 


# 获得 坐标 ， 并 将 其 用 齐 次 坐标 表示 
x1 = points2D[0][:,corr[ndx,0] | 
x1 = vstack( (x1,ones(x1.shape[1])) ) 
x2 = points2D[1][:,corr[ndx,1] | 
x2 = vstack( (x2,ones(x2.shape[1])) ) 


# 计算 F 
F = sfm.compute fundamental(x1,x2) 


# 计算 极点 
e = sfm.compute epipole(F) 


# 绘制 图 像 
figure() 
imshow(im1 ) 


# 分 别 绘 制 每 条 线 ， 这 样 会 绘制 出 很 漂亮 的 颜色 
for i in range(5): 

stm. plot epipolar line(iml,F,x2| eile False) 
axis('off') 


figure() 
imshow(im2 ) 
# 分 别 绘制 每 个 点 ， 这 样 会 绘制 出 和 线 同 样 的 颜色 
for i in range(5): 
plotix2 0,4] x2 El 
axis('off') 


show( ) 
首先 ， 选 择 两 幅 图 像 的 对 应 点 ， 然 后 将 它们 转换 为 齐 次 坐标 。 这 里 的 对 应 点 是 从 一 个 
文本 文件 中 读 取 得 到 的 ; 而 实际 上 ， 我 们 可 以 按照 第 2 章 的 方法 提取 图 像 特征 ， 然 后 
通过 匹配 来 找到 它们 。 由 于 缺失 的 数据 在 对 应 列表 corr 中 为 -1， 所 以 程序 中 有 可 能 
选取 这 些 点 。 因 此 ， 上 面 的 程序 通过 数组 操作 符 & 只 选取 了 索引 大 于 等 于 0 的 后。 


最 后 ， 我 们 在 第 一 个 视图 中 画 出 了 前 3 个 外 极 线 ， 在 第 二 个 视图 中 画 出 了 对 应 匹配 
Mo BRIE eat) plot() KA: 














def plot epipolar line(im,F,x,epipole=None,show epipole=True): 


""" 在 图 像 中 ,绘制 外 极点 和 外 极 线 Fx x=0。F Reza IRE, x Ao A A 
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m,n = im.shape[:2 | 
line = dot(F,x) 


# 外 极 线 参 数 和 值 
t = linspace(0,n, 100) 
lt = array([(line[2]+line[o]*tt)/(-line[1]) for tt in t]) 


# 仅仅 处 理 位 于 图 像 内 部 的 点 和 线 
ndx = (lt>=0) & (lt<m) 
plot(t[ndx],1t[ndx], linewidth=2) 


if show epipole: 
if epipole is None: 
epipole = compute epipole(F) 
plot(epipole[0]/epipole[2],epipole[1]/epipole[2], 'r*') 


上 面 的 函数 将 x FHA TELE EA RAS, AE A RE h I Ba Dd SS ET 
如 采 show_epipole 为 真 ， 外 极点 也 会 被 画 出 来 (如果 输 入 参数 中 没有 外 极点 ， 外 极 
点 会 在 程序 中 计算 获得 )。 程 序 结果 如 图 5-4 所 示 。 在 两 幅 图 中 ， 用 不 同 的 颜色 将 点 
和 相应 的 外 极 线 对 应 起 来 。 











5-4; 视图 1 中 的 外 极 线 示 为 Merton1 数据 视图 2 中 5 个 点 对 应 的 外 极 线 。 下 面 一 行为 这 
些 点 附近 的 特写 。 可 以 看 到 ， 这 些 线 在 图 像 外 左 侧 位 置 将 相交 于 一 点 。 这 些 线 表 明 点 之 间 的 
对 应 可 以 在 另外 一 幅 图 像 中 找到 ( 线 和 点 之 间 的 颜色 编码 匹配 ) 
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5.2 照相 机 和 三 维 结构 的 计算 
上 一 节 讲 述 了 视图 和 基础 和 矩阵、 外 极 线 计算 方法 的 关系 。 这 一 节 我 们 将 简单 地 介绍 
计算 照相 机 参数 和 三 维 结 构 的 工具 。 


5.2.1 ZAXI 


给 定 照 相机 参数 模型 ， 图 像 点 可 以 通过 三 角 齐 分 来 恢复 出 这 些 点 的 三 维 位 置 。 基 本 
的 算法 思想 如 下 。 


对 于 两 个 照相 机 Pl FP, 的 视图 ， 三 维 实物 点 XX 的 投影 点 为 和 x，( 这 里 用 齐 次 坐 
标 表示 )， 照 相机 方程 (4.1) 定义 了 下 列 关 系 : 





X 
P 一 XI 0 pa 
PO -x 








由 于 图 像 噪声 、 照 相机 参数 误差 和 其 他 系统 误差 ， 上 面 的 方程 可 能 设 有 精确 解 。 我 
们 可 以 通过 SVD 算法 来 得 到 三 维 点 的 最 小 二 乘 估 值 。 





下 面 的 国 数 用 于 计算 一 个 点 对 的 最 小 三 乘 三 角 剖 分 ， 把 它 添 加 到 sfm.py 中 : 


def triangulate point(x1,x2,P1,P2): 
e ARDOR, td ARS fay """ 


M = zeros((6,6)) 


M[ 23,74] = Pi 
MI3:s c4 | = P2 
M[:3,4] = -x1 
M[3:,5] = -x2 


U,S,V = linalg.svd(M) 
X = V[-1,:4] 


return X / X[3] 


oa —/ RFE) Se BT 4 个 值 就 是 齐 次 坐标 系 下 的 对 应 三 维 坐标 。 我 们 可 以 增加 下 
面 的 函数 来 实现 多 个 点 的 三 角 剖 分 : 





def triangulate(x1,x2,P1,P2): 
T X1 Ful x2 (3 x n 的 齐 次 坐标 表示 ) 中 点 的 二 视图 三 角 剂 分 mn 


n = x1.shape[1] 
ift X2¢Shapel | | t= N; 





-A 
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raise ValueError("Number of points don't match.") 


X = [ triangulate point(x1[:,i],x2[:,i],P1,P2) for i in range(n) | 


return array(X).T 


个 函数 的 输入 是 两 个 图 像 点 数组 ， 输 出 为 一 个 三 维 坐 标 数 组 。 
我 们 可 以 利用 下 面 的 代码 来 实现 Merton] 数据 集 上 的 三 角 齐 分 





import sfm 
# 前 两 个 视图 中 点 的 索引 
ndx = (Corri OO 人 Go 二 | 站 DO 


# 获取 坐标 ， 并 用 齐 次 坐标 表示 
x1 = points2D[0][:,corr|[ndx,0] 


| 
x1 = vstack( (x1,ones(x1.shape[1]))_) 
x2 = points2D[1]|:2,corr[ ndx;4 |] 
x2 = vstack( (x2,ones(x2.shape[1])) ) 


Xtrue = points3D[:,ndx] 
Xtrue = vstack( (Xtrue,ones(Xtrue.shape[1])) ) 


# 检查 前 三 个 点 

Xest = sfm.triangulate(x1,x2,P[0].P,P[1].P) 
print Xestia] 

print ATE e523) 


绘制 图 像 
from mpl toolkits.mplot3d import axes3d 
fig = figure() 
= fig.gca(projection='3d') 
ax.plot(Xest[0],Xest[1],Xest[2], 'ko') 
ax.plot(Xtrue[0],Xtrue[1],Xtrue[2],'r.') 
axis('equal' ) 


show() 


上 面 的 代码 首先 利用 前 两 个 视图 的 信息 来 对 图 像 点 进行 三 角 训 分， 然后 把 前 三 个 图 


像 点 的 齐 次 坐标 输出 到 控制 台 ， 节 后 绘制 出 恢复 的 


台 的 信息 如 下 : 

[[ 1.03743725 1.56125273 1.40720017 | 
[-0.57574987 -0.55504127 -0.46523952 | 
[ 3.44173797 3.44249282 7.53176488] 
| 1 13 1: ] 
[ 1.0378863 1.5606923 1.4071907 | 


l 
[ 


三 | 


AX 


接近 


三 维 图 像 点 。 输 出 到 控制 
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[-0.54627892 -0.5211711 -0.46371818 | 
[ 3.4601538  3.4636809 7.5323397 | 
E? k i, ]] 


算法 估计 出 的 三 维 图 像 点 和 实际 图 像 点 很 接近 。 如 图 5-5 所 示 ， 佑 计 点 和 实际 点 可 
以 很 好 地 匹配 。 








og o + a 
6 y 9 z ° Pi 
by e 9° o o9 s 
=" s$ se 
“ a o 5 © 
ae 多 “sn oP e d 
og’ - 。% è S 


© 
oe ° o 
OD BER, do ok ter 
Bo ya tb Ys a 
cfo go cag PF Bo 。 














图 5-5: 使 用 照相 机 和 矩 阵 和 点 的 对 应 关系 来 三 角 训 分 这 些 数据 点 。 黑 色 的 圆圈 表示 估计 的 点 ， 
灰色 的 点 表示 真实 点 。 上 方 一 侧 的 视图 ( 左 )。 一 个 坐标 平面 观看 这 些 数 据点 的 近景 图 像 ( 右 ) 


5.2.2 ”由 三 维 点 计算 照相 机 和 矩阵 

如 果 已 经 知道 了 一 些 三 维 点 及 其 图 像 投影 ， 我 们 可 以 使 用 直接 线性 变换 的 方法 来 计 
算 照 相机 矩阵 P。 本 质 上 ， 这 是 三 角 剖 分 方法 的 逆 问 题 ， 有 时 我 们 将 其 称 为 照相 机 
反切 法 。 利 用 该 方法 恢复 照相 机 和 矩阵 同样 也 是 一 个 最 小 二 乘 问题 。 


我 们 从 照相 机 方程 (4.1) 可 以 得 出 ， 每 个 三 维 点 X, 〈 齐 次 坐标 系 下 ) 按照 x, =PX, 
BERRA xix, yp,1]， 相 应 的 扩 满 足下 面 的 关系 : 


Xi 0 0 -x 0 0.. P 
OX Or 下， 
0.0 XFL © Gee, 
X50 0 0 | 
0 X 0 0 -有 0…||” 


0 0 X% 0 -10… 


其 中 pi, p: 和 p, 征 和 矩阵 己 的 三 行 。 上 面 的 式 子 可 以 写 得 更 紧凑 ， 如 下 所 示 : 


Mv=0 





然后 ， 我 们 可 以 使 用 SVD 分 解 估 计 出 照相 机 第 阵 。 利 用 上 面 讲述 的 矩阵 操作 ， 我 们 
可 以 直接 写 出 相应 的 代码 ， 将 下 面 的 函数 添加 到 sfm.py 文件 中 : 





def compute P(x,X): 





"由 二 维 - 三 维 对 应 对 ( 齐 次 坐标 表示 ) 计算 照相 机 和 矩阵 ” 


n = x.shape[1] 
if X.shape[1] != n: 


raise ValueError("Number of points don't match.") 


# 创建 用 于 计算 DLT 解 的 矩阵 
M = zeros((3*n,12+n)) 

for i in range(n): 

Misti Oe ay E Ai] 
M[3*i+1,4:8] = X[:,i] 
M[3*i+2,8:12] = X[:,i] 
M[3*i:3*1+3,i1+12] = -x[:,i] 


U,S,V = linalg.svd(M) 


return V[-1,:12].reshape((3,4) ) 


sit uae ed, a e 


个 特征 问 


量 的 前 12 个 元 素 钙 照相 机 矩阵 的 元 素 ， 经 过 重新 排列 成 矩阵 形状 后 返 


下 面 ， 在 我 们 的 样本 数据 集 上 测试 算法 的 性 
一 些 可 见 点 (使 用 对 应 列表 中 缺失 的 数值 )， 
照相 机 和 矩阵 : 


import sfm, camera 


corr = corr[:,0] # 视图 1 
ndx3D = where(corr>=0)[0] # 丢失 的 数值 为 -1 
ndx2D = corr[ndx3D] 


# 选取 可 见 点 ， 并 用 齐 次 坐标 表示 

x = points2D[0][:,ndx2D] # 视图 1 
x = vstack( (x,ones(x.shape[1])) ) 
X = points3D[:,ndx3D] 

X = vstack( (X,ones(X.shape[1])) ) 


# 估计 P 


Pest = camera.Camera(sfm.compute P(x,X)) 


# 比较 ! 
print Pest.P / Pest.P[2,3] 


能 。 下 面 的 代码 会 选 出 第 一 个 视图 中 的 
将 它们 转换 为 齐 次 坐标 表示 ， 然 后 估计 
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print P[o].P / P[o].P[2,3] 
xest = Pest.project(Xx) 


# 绘制 图 像 

figure() 

imshow(im1) 
plot(x[0],x[1],'bo') 
plot(xest[0],xest[1],'r.') 
axis('off') 


show() 


JI TAA FB FALE AE RE, REMI LA YA (bala toc) 打印 
到 控制 台 。 输 出 如 下 所 示 : 


.06520794e+00 -5.23431275e+01 2.06902749e+01 5.08729305e+02 
.05773115e+01 -1.33243276e+01 -1.47388537e+01 4.79178838e+02 
.051219158-03 -3.19264684e-02 -3.43703738e-02 1.00000000e+00 
.06774679e+00 -5.23448212e+01 2.06926980e+01 5.08764487e+02 
.05834364e+01 -1.33201976e+01 -1.47406641e+01 4.79228998e+02 
.06792659e-03 .19008054e-02 -3.43665129e-02 1.00000000e+00 


| 


bo bed Fed LI LI LI 


| 


1 
UV 


上 面 是 估计 出 的 照相 机 矩阵， 下 面 古 数据 集 的 创建 者 计算 出 的 照相 机 和 矩阵 。 可 以 看 
到 ， 它 们 的 元 素 儿 乎 完全 相同 。 最 后 ， 使 用 估计 出 的 照相 机 和 矩阵 投影 这 些 三 维 点 ， 
然后 绘制 出 投影 后 的 结果 。 结 琳 如 图 5-6 所 示 ， 真 实 点 用 圆圈 表示 ， 估 计 出 的 照相 
机 投影 所 用 点 表示 。 

















5-6: 使 用 估计 出 的 照相 机 和 矩阵 来 计算 视图 1 中 的 投影 点 


5.2.3 由 基础 矩阵 计算 照相 机 和 矩阵 
在 两 个 视图 的 场景 中 ， 照 相机 算 阵 可 以 由 基础 矩阵 恢复 出 来 。 假 设 第 一 个 照相 机 甜 





Taxa 
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BE VI— (ty P=[70]， 现 在 我 们 需要 计算 出 第 二 个 照相 机 和 窍 阵 P,。 研 究 分 为 两 类 ， 
未 标定 的 情况 和 已 标定 的 情况 。 


1. 未 标定 的 情况 一 一 投影 重建 

在 没有 任何 照相 机 内 参数 知识 的 情况 下 ， 照 相机 移 阵 只 能 通过 射影 变换 恢复 出 来 。 
也 就 是 说 ， 如 末 利 用 照相 机 的 信息 来 重建 三 维 点 ， 那 么 该 重建 只 能 由 射影 变换 计算 
出 来 (你 可 以 得 到 整个 投影 场景 中 无 畸变 的 重建 点 )。 在 这 里 ， 我 们 不 考虑 角度 和 距 
[AI o 





因此 ， 在 无 标定 的 情况 下 ， 第 二 个 照相 机 和 矩阵 可 以 使 用 一 个 (3x3) 的 射影 变换 得 
出 o 一 个 简单 的 方法 是 : 


P,=(S.Fle] 


Ep, e 是 左 极点 ， 满 足 eF=0，S。 是 如 公式 (5.2) 所 示 的 反对 称 和 矩阵 。 请 注意 ， 
使 用 该 矩阵 做 出 的 三 角形 前 分 很 有 可 能 会 发 生 畸 变 ， 如 倾斜 的 重建 。 


Pe AAS AY CAS ; 





def compute P from fundamental(F): 
e" MEREMERE CA RAEE (假设 Pa = [TI 0]) "” 


e = compute epipole(F.T) # 左 极点 


Te = skew(e) 
return vstack((dot(Te,F.T).T,e)).T 


这 里 ， 我 们 使 用 的 skew) 函数 定义 如 下 : 


def skew(a): 
"e 反对 称 矩 阵 A， 使 得 对 于 每 个 v 有 axv=Av """ 


return array([{[0,-a[2],a[1]],[a[2],0,-a[0]],[-a[1],a[o],0]]) 
将 上 面 的 两 个 函数 添加 到 sfm.py 文件 中 。 


2. 已 标定 的 情况 一 一 度量 重建 

在 已 经 标定 的 情况 下 ， 重 建 会 保持 欧式 空间 中 的 一 些 度量 特性 (除了 全 局 的 尺度 参 
数 )。 在 重建 三 维 场景 中 ， 已 标定 的 例子 更 为 有 趣 。 

EPRE IERE K, RITAR ECA K 作用 于 图 像 点 xx=K x， 因 此 ， 在 新 的 图 像 
坐标 系 下 ， 照 相机 方程 变 为 : 


x,= K ‘K[R|t]X = [R|t]X 
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ERRERA T, A EPE E Z BI AI AEE BEJ FE : 





xx, Fxg =0 








FEAR VA— {OH Air ARP, WEBERA BBE, W BW Ap ea tL, LA 
RUT MA RBs, MIA E, mde F. 


MÆ Jit FEB i EH ES FALE EE AR, TA a A) RA 
解 产 生 位 于 两 个 照相 机 前 的 场景 ， 所 以 我 们 可 以 轻松 地 从 中 选 出 来 。 





下 面 是 计算 这 4 个 解 的 算法 (参阅 文献 [13] 获取 更 多 细节 )。 将 该 函数 添加 到 sfm. 
py 文件 中 : 
def compute P from essential(E): 


"e" MAS JAE RE HB EELS — 7S LEE (假设 P1 = [I 0]) 
输出 为 4 个 可 能 的 照相 机 矩阵 列表 ""”" 


# PRUE E 的 秩 为 2 
USV = sVvd CE) 
if det(dot(U,V))<o: 
V= -V 
E = dot(U,dot(diag([1,1,0]),V)) 


# 创建 矩阵 (Hartley) 
Z = skew([0,0,-1]) 
W = array([[0,-1,0],[1,0,0],[0,0,1]]) 


# 返回 所 有 (4 个 ) 解 

P2 = [vstack((dot(U,dot(W,V)).T,U[:,2])).T, 
vstack((dot(U,dot(W,V)).T,-U[:,2])).T, 
vstack((dot(U,dot(W.T,V)).T,U[:,2])).T, 
vstack((dot(U,dot(W.T,V)).1T,-UL:,2])).T] 


return P2 


BIC, TARR AWA ER AS ERE BRA 2 (AS EE A A ES ay HL). PAA, 
按照 文献 [13] 中 的 方法 ， 计 算出 这 4 个 解 。 关 于 如 何 挑选 正确 的 解 ， 我 们 将 在 后 面 
的 例子 中 讲解 。 


本 万 涵盖 了 从 图 像 集 计算 出 三 维 重建 所 需 的 所 有 理论 。 


5.3 ”多 视图 重建 


下 面 让 我 们 来 看 ， 如 何 使 用 上 面 的 理论 从 多 幅 图 像 中 计算 出 真实 的 三 维 重 建 。 由 于 
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照相 机 的 运动 给 我 们 提供 了 三 维 结构 ， 所 以 这 样 计算 三 维 重 建 的 方法 通常 称 为 SfM 
(Structure from Motion， 从 运动 中 恢复 结构 )。 


假设 照相 机 已 经 标定 ， 计 算 重 建 可 以 分 为 下 面 4 个 步 桑 : 


(1) 检测 特征 点 ， 然 后 在 两 幅 图 像 间 匹配 ， 
(2) 由 匹配 计算 基础 矩阵 ; 
(3) 由 基础 第 阵 计 算 照 相机 算 阵 ， 


(4) = FAT 7 ik HE = FE 


RNCARS Sse hin 4 CRAB. (ESR RI eh 
TE APES DE BCID, RAE — Ak BED D AREER 


5.3.1 稳健 估计 基础 矩阵 

类 似 于 稳健 计算 单 应 性 矩阵 (3.3 ) ， 当 存在 噪声 和 不 正确 的 匹配 时 ， 我 们 需要 估 
计 基 础 矩阵 。 和 前 面 的 方法 一 样 ， 我 们 使 用 RANSAC 方法 ， 只 不 过 这 次 结合 了 八 
点 算法 。 注 章 ， 八 点 算法 在 平面 场景 中 会 失效 ， 所 以 ， 如 果 场 景点 都 位 于 平面 上 ， 
就 不 能 使 用 该 算法 。 


将 下 面 的 类 添加 到 sfm.py 文件 中 : 








class RansacModel(object): 
""" 用 从 http://www.scipy.org/Cookbook/RANSAC 下 载 的 ransac.py 计算 基础 矩阵 的 类 """ 


def init (self,debug=False): 
self.debug = debug 


def fit(self,data): 
""" 使 用 选择 的 8 个 对 应 计算 基础 逢 阵 """ 


# 转 置 ， 并 将 数据 分 成 两 个 点 集 
data = data.T 

ME = datal 33328. 

x2 = data[3:,:8] 


# 估计 基础 矩阵 ， 并 返回 
F = compute fundamental normalized(x1,x2) 
return F 


def get_error(self,data,F): 
""" 计算 所 有 对 应 的 x^T F x， 并 返回 每 个 变换 后 点 的 误差 """ 





# 转 置 ， 并 将 数据 分 成 两 个 点 集 
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data = data.T 
x1 = datal y 
x2 = datal.3: | 


# 将 Sampson 距离 用 作 误 差 度量 

Exh Sdotth, xt) 

Ex? = dott hs?) 

denom = Fx1[0]**2 + Fxi[1]**2 + Fx2[0]**2 + Fx2[1]**2 
err = ( diag(dot(x1.T,dot(F,x2))) )**2 / denom 


# 返回 每 个 点 的 误差 
return err 


和 之 前 一 样 ， 我 们 需要 fit() 和 get error() 方法。 这 里 采用 的 错误 衡量 方法 是 
Sampson 距离 (参阅 文献 [13]). fit) 方法 会 选择 8 个 点 ， 然 后 使 用 归 一 化 的 八 点 
算法 : 


def compute fundamental normalized(x1, x2): 


""" 使 用 归 一 化 的 八 点 算法 ， 由 对 应 点 (x1，x2 3 Xn 的 数组 ) 计算 基础 矩阵 "”" 


n = x1.shape[1] 
if x2«shape[ 1] =n: 
raise ValueError("Number of points don't match.") 


# 归 一 化 图 像 坐标 

Neh. e/a | 

mean 1 = mean(x1[:2],axis=1) 

Si ‘srt(2) A StI) 

T1 = array([[S1,0,-S1*mean 1[0]],[0,S1,-S1*mean 1[1]],[0,0,1]]) 
x4. s dot TIXI) 


PS X21 

mean 2 = mean(x2[:2],axis=1) 

S22 Sanu?) Std >|) 

T2 = array([[S2,0,-S2*mean 2[0]],[0,S2,-S2*mean 2[1]],[0,0,1]]) 
Y)- 2 AOE TAX) 


# 使 用 归 一 化 的 坐标 计算 F 


F = compute fundamental(x1,x2) 


# 反 归 一 化 
F = dot(T1.T,dot(F,T2)) 


return F/F[2,2] 


该 国 数 将 图 像 点 归 一 化 为 零 均 值 固 定 方差 。 
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接 下 来 ,我 们 在 函数 中 使 用 该 类 。 将 下 面 的 函数 添加 到 sfm.py 文件 中 


def F from ransac(x1,x2,model,maxiter=5000,match theshold=1e-6): 
nu" 使 用 RANSAN 方法 (ransac.py, RÁ http://www. scipy.org/Cookbook/RANSAC) ; 
从 点 对 应 中 稳健 地 估计 基础 矩阵 F 
输入 : 使 用 齐 次 坐标 表示 的 点 x1，x2 (3 Xn 的 数组 ) """ 


import ransac 
data = vstack((x1,x2)) 


# 计算 并 返回 正确 点 索引 

F,ransac data = ransac.ransac(data.T,model,8,maxiter,match theshold, 20, 
return_all=True) 

return F, ransac_data['inliers' | 


ZE, RINE EIER I ME F, DER, EE RT De be PA A F 
ke ME BA. 5AM EEEE, FRAT RUA RAR RR, Oe T 
PU ACH BE (之 前 使 用 像素 ， 现 在 使 用 Sampson 距离 来 衡量 )。 


5.3.2 ”三维 重建 示例 
在 本 市 中 ， 我 们 将 观 窦 一 个 重建 三 维 场 景 的 完整 例子 。 我 们 使 用 由 已 知 标定 算 阵 的 
照相 机 拍摄 的 两 幅 图 像 。 该 图 像 是 著名 的 恶魔 鸟 监狱 ， 如 图 5-7 Bra. | 








i 


BM. eh ý ’ 
al dts - | | $9), 
4 O Hl "| 
> | 
ù > sha Port 
” wee T a 4 “is hha) Tee 








图 5-7; 在 一 个 场景 中 使 用 不 同 视角 拍摄 图 像 对 


我 们 将 该 处 理 代码 分 成 厂 干 块 ， 使 得 代码 更 容易 理解 。 首 先 ， 提取 、 匹 配 特 征 ， 然 
后 估计 基础 阜 阵 和 品 相 机 和 矩阵 : 


import homography 
import sfm 
import sift 


TE 1: 图 像 由 Carl Olsson 提供 (参见 http://www.maths.|th.se/matematiklth/personal/calle/) 。 
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# 标定 矩阵 
K = array([[2394,0,932],[0,2398,628],[0,0,1]]) 


# 载 和 图像， 并 计算 特征 

im1 = array(Image.open('alcatraz1.jpg')) 
sift.process image('alcatraz1.jpg','im1.sift') 
l1,d1 = sift.read features from file('im1.sift') 


im2 = array(Image.open('alcatraz2.jpg')) 
sift.process image('alcatraz2.jpg','im2.sift') 
12,d2-=:sift.read features from Ti Le Im ite) 


# 匹配 特征 
matches = sift.match twosided(d1,d2) 
ndx = matches.nonzero() [o] 


# 使 用 齐 次 坐标 表示 ， 并 使 用 inv(K) 归 一 化 
x1 = homography.make_homog(11[ndx, :2].T) 
ndx2 = [int(matches[i]) for i in ndx] 

x2 = homography.make_homog(12[ndx2, :2].T) 


xin = dot(inv(K),x1) 
x2n = dot(inv(K), x2) 


# 使 用 RANSAC 方法 估计 
model = sfm.RansacModel() 
E,inliers = sfm.F from ransac(xin,x2n,mode1) 


# 计算 照相 机 和 矩阵 (P2 是 4 个 解 的 列表 ) 
P1 = array Cl[1,0;050 |, E00 O00) | O05 0) 
P2 = sfm.compute P from essential(E) 


现在 ， 我 们 已 经 获得 了 标定 第 阵 ， 所 以 只 对 第 阵 K 进行 硬 编码 。 与 之 前 的 例子 一 
样 ， 我 们 挑选 属于 匹配 关系 的 特定 点 。 然 后 使 用 KK 来 对 其 进行 归 一 化 ， 并 使 用 归 
一 化 的 八 点 算法 来 运行 RANSAC 估计 。 因 为 该 点 已 经 归 一 化 ， 所 以 这 里 会 运 回 一 
个 本 质 算 阵 。 因 为 我 们 将 会 使 用 到 的 正确 的 匹配 点 ， 所 以 需要 傈 存 正确 匹配 点 的 和 
引 。 从 本 质 和 矩阵 出 发 ， 我 们 可 以 计算 出 第 二 个 照相 机 算 阵 的 四 个 可 能 解 。 


从 照相 机 矩阵 的 列表 中 ， 挑 选 出 经 过 三 角 放 分 后 ， 在 两 个 照相 机 前 均 含 有 最 多 场景 
FAHY HEA ALAR RA : 
# 选取 点 在 照相 机 前 的 解 


ind = 0 
maxres = 0 








for i in range(4): 
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# 三 角 剂 分 正确 点 ， 并 计算 每 个 照相 机 的 次 度 

X = stm.triangulate(xin[:,inliers],x2n[:,inliers],P1,P2[i]) 
d1 = dot(P1,X)[2] 

d2 = dot(P2[i],X)[2] 

sum(d1>0)+sum(d2>0) > maxres: 


+H 


i 
maxres = sum(d1>0)+sum(d2>0) 
TAG =: 
infront = (d1>0) & (d2>0) 





+ 


三 角 齐 分 正确 点 ， 并 移 除 不 在 所 有 照相 机 前 面 的 点 
X = stm.triangulate(xin[:,inliers],x2n[:,inliers],P1,P2[ind]) 
X = X[:,infront] 


VA Ail ik 4 SiR, ORD Dy TIE AAA = EET = A. RS PATI a 
Ate lA Ba, REWE HET A BO = PA. RRE TEN 
最 大 深度 的 索引 ， 对 于 和 了 最 优 解 一 致 的 点 ， 用 相应 的 布尔 量 保存 了 信息 ， 这 样 可 以 
取出 真正 在 照相 机 前 面 的 点 。 因 为 所 有 估计 中 都 存在 噪声 和 误差 ， 所 以 即便 使 用 正 
确 的 照相 机 和 矩阵 ， 也 存在 一 些 点 仍 位 于 某 个 照相 机 后 和 面 的 风险 。 首 先 获 得 正确 的 解 ， 
然后 对 这 些 正确 的 皇 进 行 三 角 剖 分 ， 最 后 保留 位 于 照相 机 前 方 的 点 


现在 可 以 绘制 出 该 三 维 重建 :; 


# 绘制 三 维 图 像 
from mpl toolkits.mplot3d import axes3d 











fig = figure() 

ax = fig.gca(projection='3d' ) 
ax.plot(-X[0],X[1],X[2],'k.') 
axis('off') 


和 我 们 的 坐标 系 相 比 ， 使 用 mplot3d 绘制 三 维 图 像 需 要 将 第 一 个 坐标 值 取 相 反 数 ， 
所 以 这 里 改变 其 符号 


然后 ， 可 以 在 每 个 视图 中 绘制 出 二 次 投影 : 


# 绘制 Xx 的 投影 
import camera 


# 绘制 三 维 点 

Cam1 = camera.Camera(P1) 

cam2 = camera.Camera(P2[ind]) 
x1p = cam1.project(X) 

x2p = cam2.project(X) 


# 反 K 归 一 化 
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x1p = dot(K,x1p) 
x2p = dot(K,x2p) 


figure() 

imshow(im1) 

gray() 
plot(x1p[0],x1p[1],'0') 
plot(xilo xili]; re") 
axis('off') 


figure() 

imshow(im2) 

gray() 
plot(x2p[0],x2p[1],'0') 
plot x20] 5X21 415. TY) 
axis(' Ort ) 

show() 


将 这 些 三 维 点 投影 后 ， 可 以 通过 乘 以 标定 矩阵 的 方式 来 弥补 初始 归 一 化 对 点 的 影响 。 


结 末 输出 如 图 5-8 所 示 。 可 以 看 到 ， 二 次 投影 后 的 点 和 原始 特征 位 置 不 完全 匹配 ， 
但 是 相当 接近 。 当 然 ， 可 以 进一步 调整 照相 机 算 阵 来 所 高 重建 和 二 次 投影 的 性 能 ， 
但 是 这 超出 了 这 个 简单 例子 的 范畴 。 





ED Rae 
=e 
a ities 


i Kine 
ea per 











a a 对 图 像 中 计算 三 维 重建 : PARER (RE) 和 二 次 投影 重建 的 
三 维 点 (BE) 的 两 幅 图 像 (E); 三维 重建 (下) 





入 和 
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5.3.3 ”多 视图 的 扩展 示例 
多 视图 重建 有 一 些 步骤 和 进一步 的 扩展 ， 但 是 不 能 在 本 书 中 全 部 介绍 。 为 了 方便 读 
者 进一步 阅读 ， 下 面 提 供 关 于 一 些 有 关内 容 及 其 参考 文献 。 


1. 多 视图 

当 我 们 有 同一 场景 的 多 个 视图 时 ， 三 维 重建 会 变 得 更 准确 ， 包 括 更 多 的 细节 信息 。 
因为 基础 矩阵 只 和 一 对 视图 相关 ， 所 以 该 过 程 带 有 很 多 图 像 ， 和 之 前 的 处 理 有 些 
不 同 。 


对 于 视频 序列 ， 我 们 可 以 使 用 时 序 关 系 ， 在 连续 的 帧 对 中 匹配 特征 。 相 对 方位 需要 
从 每 个 帧 对 增 量 地 加 入 下 一 个 帧 对 ，( 与 图 3-12 中 我 们 在 全 景 图 例子 中 加 入 单 应 性 
和 矩阵 相同 )。 该 方法 非常 有 效 ， 同 时 可 以 使 用 跟踪 有 效 地 找到 对 应 点 (关于 跟踪 的 更 
多 知识 ， 参 阅 10.4 市 )。 一 个 问题 是 误差 会 在 加 入 的 视图 中 积 索 。 该 问题 可 以 由 最 
后 的 优化 步骤 来 解决 ， 参 见 下 文 。 


对 于 静止 的 图 像 ， 一 个 办 法 是 找到 一 个 中 央 参 考 视 图 ， 然 后 计算 与 之 有 关 的 所 有 其 
他 照相 机 和 矩 了 泗 。 田 一 个 办 法 古 计算 一 个 图 像 对 的 照相 机 逢 了 泗 和 三 维 重建 ， 然 后 增 量 
地 加 入 新 的 图 像 和 三 维 点 ， 参 见 参考 文献 [34]。 另 外 ， 还 有 一 些 方法 可 以 同时 由 三 
个 视图 计算 三 维 重 建 和 照相 机 位 置 (参阅 参考 文献 [13]) ; 但 除 此 之 外 ， 我 们 还 需 
要 使 用 增 量 的 方法 。 


2. 光束 法 平 差 

从 图 5-8 简单 三 维 重 建 的 例子 ， 我 们 可 以 清楚 地 看 出 ， 恢 复出 的 点 的 位 置 和 由 估计 
的 基础 矩阵 计算 出 的 照相 机 和 瑟 阵 都 存在 误差 。 在 多 个 视图 的 计算 中 ， 这 些 误差 会 进 
一 步 票 积 。 因 此 ， 多 视图 重建 的 最 后 一 步 ， 通 稍 是 通过 优化 三 维 点 的 位 置 和 照相 机 
参数 来 减少 二 次 投影 误差 。 该 过 程 称 为 光束 法 平 差 。 更 多 内 容 参 阅 参 孝文 献 [13] 和 [35], 
或 者 可 以 从 http://en.wikipedia.org/wiki/Bundle_adjustment 参阅 该 方法 的 概述 。 


3. 自 标 定 

在 未 标定 照相 机 的 情形 中 ， 有 了 时 可 以 从 图 像 特征 来 计算 标定 矩阵 。 该 过 程 称 为 自 标 
定 。 根 据 在 照相 机 标定 矩阵 参数 上 做 出 的 假设 ,以 及 可 用 的 图 像 数 据 的 类 型 (特征 
匹配 、 平 行 线 、 平 面 等 )， 我 们 有 很 多 不 同 的 自 标 定 算法 。 感 兴趣 的 读者 可 以 参阅 参 
75 CHK [13] 及 参考 文献 [26] 第 6 章 的 内 容 。 


作为 标定 的 附注 ， 值 得 一 提 的 是 一 个 叫做 extract_focal.pl 的 有 用 脚本 ， 它 是 SfM 系 
统 (http://phototour.cs.washington.edu/bundler/) 的 一 部 分 。 对 于 和 常见 的 照相 机 ， 该 
脚本 基于 图 像 EXIF 数据 ， 使 用 一 个 查找 表 来 估计 焦距 。 
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5.4 立体 图 像 

一 个 多 视图 成 像 的 特殊 例子 是 立体 视觉 (或 者 立体 成 像 ) ， 即 使 用 两 台 只 有 水 平 (m 
一 侧 ) 偏 移 的 照相 机 观测 同一 场景 。 当 照相 机 的 位 置 如 上 设置 ， 两 幅 图 像 具 有 相同 
的 图 像 平面 ， 图 像 的 行 是 垂直 对 齐 的 ， 那 么 称 图 像 对 是 经 过 矫正 的 。 该 设置 在 机 大 
人 学 中 很 常见 ， 币 被 称 为 立体 平台 。 

通过 将 图 像 扭 曲 到 公共 的 平面 上 上， 使 外 极 线 位 于 图 像 行 上 ， 任 何 立 体 照 相机 设置 都 
能 得 到 矫正 (我 们 通常 构建 立体 平台 来 产生 经 过 矫正 的 图 像 对 ) 。 这 超出 了 本 章节 的 
沁 围 ， 感 兴趣 的 读者 可 以 参阅 参考 文献 [13] 第 303 页 ， 或 者 参考 文献 [3] 第 430 页 。 


假设 两 幅 图 像 经 过 了 矫正 ， 那 么 对 应 扩 的 寻找 限制 在 图 像 的 同一 行 上 。 一 旦 找到 
对 应 点 ， 由 于 深度 是 和 偏 移 成 正比 的 ， 那 么 深度 (Z 坐标 ) 可 以 直接 由 水 平 偏 移 来 
计算 ， 




















ee ee 
其 中 ,ff 是 经 过 矫正 图 像 的 焦距 ，b 是 两 个 照相 机 中 心 之 间 的 距离 ，x 和 x 是 左右 两 


幅 图 像 中 对 应 点 的 xx 坐标 。 分 开 照 相机 中 心 的 距离 称 为 基线 。 矫 正 后 的 立体 照相 机 
设置 如 图 5-9 所 示 。 




















立体 重建 《有 时 称 为 致密 深度 重建 ) 就 是 恢复 深度 图 (或 者 相反 ， 视 差 图 ) ， 图 像 中 
每 个 像素 的 深度 (或 者 视差 ) 都 需要 计算 出 来 。 这 是 计算 机 视觉 中 的 经 典 同 题 ， 有 
很 多 算法 可 以 解决 该 问题 。 米 德尔 伯 里 学 院 立体 视觉 网 页 (http://vision.middlebury. 
edu/stereo/) 保持 更 新 最 佳 算法 的 评估 ， 以 及 该 算法 的 代码 和 许多 细 证 描述。 在 下 一 
中 ， 我 们 会 讲解 基于 归 一 化 互相 关 的 立体 重建 算法 。 








计算 视 志 图 

在 该 立体 重建 算法 中 ,我们 将 对 于 每 个 像素 尝试 不 同 的 偏 移 ， 并 按照 局 部 图 像 周 转 
归 一 化 的 互相 关 值 ， 选 择 具 有 最 好 分 数 的 偏 移 ， 然 后 记录 下 该 最 佳 偏 移 。 因 为 每 个 
偏 移 在 某 种 程度 上 对 应 于 一 个 平面 ， 所 以 该 过 程 有 时 称 为 扫 平 面 法 。 虽 然 该 方法 并 
不 是 立体 重建 中 最 好 的 方法 ， 但 是 非常 简单 ， 通 常会 得 出 令 人 满意 的 结 来 。 


当 密 集 地 应 用 在 图 像 中 时 ， 归 一 化 的 互相 关 值 可 以 很 快 地 计算 出 来 。 这 和 我 们 在 第 
2 章 中 应 用 于 稀疏 点 对 应 的 不 同 。 我 们 使 用 每 个 像素 周围 的 图 像 块 (根本 上 说 ， 是 
局 部 周边 图 像 ) 来 计算 归 一 化 的 互相 关 。 对 于 这 里 的 情形 ， 我 们 可 以 在 像素 周围 重 
新 写 出 公式 (2.3) 中 的 NCC， 如 下 所 示 




















>, h(x) -A) (a(x) -0) 





h, b) =—SSovoOF 
TD O 





我 们 在 前 面 跳 过 了 归 一 化 常数 (这 里 不 需要 )， 然 后 对 该 像素 周围 局 部 像素 块 中 的 像 
素 求 和 。 


现在 ， 我 们 要 将 图 像 中 的 每 个 像素 进行 该 操作 。 这 三 个 求 和 操作 是 在 局 部 图 像 块 区 
域 上 进行 的 ， 我 们 可 以 使 用 图 像 滤 波 絮 来 快速 计算 ， 这 与 我 们 在 模糊 和 求 导 操作 中 
使 用 的 技巧 一 样 。ndimage.filters 模块 中 的 uniform filter() 函数 可 以 在 一 个 矩形 
图 像 块 中 计算 相 加 。 


下 面 是 扫 平 面 法 的 具体 实现 代码 ， 该 国 数 返回 每 个 像素 的 最 佳 视差 。 创 建 stereo.py 
文件 ， 将 下 面 的 代码 添加 进去 : 


def plane sweep ncc(im 1,im r,start,steps,wid): 


""" 使 用 归 一 化 的 互相 关 计 算 视 差 图 像 """ 





m,n = im l.shape 


# 保存 不 同 求 和 值 的 数组 
mean 1 = zeros((m,n)) 
mean T = zeros((m,n)) 
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s = zeros((m,n)) 


# 





l = zeros((m,n)) 
r = zeros((m,n)) 
保存 深度 平面 的 数组 





dmaps = zeros((m,n,steps)) 


# 


计算 图 像 块 的 平均 值 


filters.uniform filter(im 1,wid,mean 1) 


filters.uniform filter(im r,wid,mean r) 


# 
no 
no 


# 
fo 


# 
re 


归 一 化 图 像 
rm l = im l - mean | 
rm ry = im Yr - mean r 


尝试 不 同 的 视差 

r displ in range(steps): 

# 将 左边 图 像 移 动 到 右边 ， 计 算 加 和 

filters.uniform filter(roll(norm 1,-displ-start)*norm r,wid,s) # 和 归 一 化 
filters.uniform filter(roll(norm 1,-displ-start)*roll(norm 1,-displ-start),wid,s 1) 
filters.uniform filter(norm r*norm r,wid,s r) # 和 反 归 一 化 


# 保存 ncc 的 分 数 
dmaps[:,:,displ] = s/sqrt(s_1*s_r) 


为 每 个 像素 选取 最 佳 深 度 


turn argmax(dmaps,axis=2) 


首先 ， 因 为 uniform filter() 国 数 的 输入 参数 为 数组 ， 我 们 需要 创建 用 于 保存 让 波 
结果 的 一 些 数 组 。 然 后， 我 们 创建 一 个 数组 来 保存 每 个 平面 ， 从 而 能 够 在 最 后 一 个 
纬度 上 使 用 argmax() 尔 数 找到 对 于 每 个 像素 的 最 佳 深 度 。 该 函数 从 start 偏 移出 发 ， 
在 所 有 的 steps tat? EVER. EH roll) 函数 平移 一 幅 图 像 ， 人 然后 使 用 滤波 计算 
NCC 的 三 个 求 和 操作 。 


下 面 古 载 和 图像， 并 使 用 该 函数 计算 偏 移 图 的 完整 例子 : 


impo 


im l 
im r 


# FF 
step 
Star 





rt stereo 


= array(Image.open('scene1.row3.col3.ppm').convert('L'),'f') 
= array(Image.open('scene1.row3.col4.ppm').convert('L'),'f') 


始 偏 移 ， 并 设置 步 长 
S = 12 
t=4 
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# ncc 的 宽度 
wid = 9 


res = stereo.plane sweep ncc(im 1,im r,start,steps,wid) 


import scipy.misc 
scipy.misc.imsave('depth.png',res) 


这 里 首先 从 经 典 “tsukuba” 数据 集中 载 入 一 对 图 像 ， 然 后 将 其 灰 度 化 。 接 下 来 ， 设 
萤 扫 平面 函数 所 需 的 参数 ， 包 括 尝 试 偏 移 的 数目 、 和 初始 值 和 NCC 路 径 的 宽度 。 你 
会 发 现 ， 该 方法 非常 快 ， 至少 快 于 使 用 NCC 进行 特征 匹配 。 这 也 是 使 用 滤波 器 来 
计算 的 原因 。 


该 方法 同样 适用 于 其 他 滤波 绮 。 均 匀 滤 波 副 给 定 正 方形 图 像 块 中 所 有 像素 相同 的 权 
值 。 但 是 ， 在 一 些 例 子 中 ， 其 他 滤波 如 对 NCC 的 计算 可 能 更 为 适用 。 下 面 古 使 用 
UE UK ae HRY De Rae, POH PAAR IT. VSN stereo.py X 
件 中 : 





def plane sweep gauss(im 1,im r,start,steps,wid): 


""" 使 用 带 有 高 斯 加 权 周 边 的 归 一 化 互相 关 计 算 视 差 图 像 """ 





m,n = im 1.shape 


# 保存 不 同 加 和 的 数组 
mean 1 = zeros((m,n)) 
mean r = zeros((m,n)) 
s = zeros((m,n)) 

s | = zeros((m,n)) 

Ss Y = zeros((m,n)) 





# 保存 深度 平面 的 数组 


dmaps = zeros((m,n,steps)) 





# 计算 平均 值 
filters.gaussian filter(im 1,wid,0,mean 1) 
filters.gaussian filter(im r,wid,0,mean 7) 


# 归 一 化 图 像 
norm l = im l - mean 1 
norm r = im r - mean r 


# SSAA TRAY ALE 
for displ in range(steps): 
# 将 左边 图 像 移动 到 右边 ， 计 算 加 和 
filters.gaussian filter(roll(norm_1,-displ-start)*norm r,wid,0,s) # 和 归 一 化 
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filters.gaussian filter(roll(norm 1,-displ-start)*roll(norm 1,-displ-start) ,wid, 
‘ml 
filters.gaussian filter(norm r*norm r,wid,0,s r) # 和 反 归 一 化 


# 保存 ncc 的 分 数 
dmaps[:,:,displ] = s/sqrt(s_1*s_r) 


# 为 每 个 像素 选取 最 佳 深 度 


return argmax(dmaps,axis=2) 


除了 在 滤波 中 使 用 了 额外 的 参数 ， 该 代码 和 均匀 滤波 的 代码 相同 。 我 们 需要 在 
gaussian filter() 国 数 中 传人 雪 参 数 来 表示 我 们 使 用 的 是 标准 高 斯 国 数 ， 而 不 是 其 
他 任何 导数 GEIL 1.4.2 市 )。 


你 可 以 像 前 面 的 扫 平 面 函数 一 样 来 使 用 该 函数 。 图 5-10 和 图 5-11 所 示 为 这 两 个 
扫 平 面 实现 操作 在 一 些 标 准 立 体 基 准 图 像 上 的 结果 。 这 些 图 像 来 自 于 参考 文献 
[29] 和 [30]， 可 以 从 http://vision.middlebury.edu/stereo/data/ 下 载 。 这 里 我 们 使 用 
“tsukuba” FH “cones” 图像， 在 标准 版 本 中 设置 wid 为 9， 高 期 版 本 中 设置 wid 为 
3。 上 面 一 行 图 像 所 示 为 图 像 对 ， 左 下 方 图 像 是 标准 的 NCC 扫 平 面 法 重建 的 视差 
， 右 下 方 是 高 斯 版 本 的 视差 图 。 可 以 看 到 ， 与 标准 版 本 相 比 ， 高 斯 版 本 具有 和 较 少 
的 噪声 ， 但 缺少 很 多 细 克 信息。 























5-10: 使 用 归 一 化 互相 关 从 一 对 立体 图 像 中 计算 视差 图 





-A 
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5-11: (ARS eBxXM-WUABRPTEMezS 


练习 


(1) 使 用 本 章 介 绍 的 技术 来 验证 2.3.2 市 中 白宫 例子 的 匹配 (使 用 自己 的 例子 更 好 )， 
WANEN fe 2 RAY VERE 

(2) 计算 图 像 对 的 特征 匹配 ， 并 估计 基础 矩阵 。 使 用 外 极 线 作为 第 二 个 输入 ， 通 过 在 
外 极 线 上 对 每 个 特征 点 寻找 最 佳 的 匹配 来 找到 更 多 的 匹配 。 

(3) 制作 一 个 包含 三 幅 或 更 多 图 像 的 数据 集 。 挑 选 一 对 图 像 ， 计 算 三 维 点 和 照相 机 和 拢 
阵 。 匹 配 特征 到 剩 下 的 图 像 中 以 歼 得 对 应 。 然 后 利用 这 些 对 应 的 三 维 点 使 用 后 方 
交汇 法 ， 计 算 其 他 图 像 的 照相 机 年 阵 。 绘 制 这 些 三 维 点 和 照相 机 的 位 置 。 你 可 以 
使 用 自己 的 数据 集 ， 也 可 以 使 用 牛津 多 视图 数据 集 的 数据 集 。 

(4) LA NCC 例子 中 相同 的 方式 使 用 滤波 如 ， 来 实现 使 用 SSD (squared differences, 
平方 差 ) 而 不 是 NCC 的 立体 视差 图 算法 版 本 。 

(5) 尝试 使 用 1.5 市 中 的 ROF 去 噪 来 对 立体 座 度 图 进行 去 品 。 对 产生 锋利 边缘 噪声 
的 互相 关 图 像 块 大 小 进行 实验 ， 使 用 平 请 去 除 产生 的 噪声 。 
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(6) 一 个 提高 视差 图 效果 的 方法 是 ， 比 较 从 左 图 到 右 图 计算 出 的 视差 图 和 从 右 图 到 左 
图 计算 出 的 视差 图 ， 然 后 仅 保 留 一 致 的 部 分 。 该 操作 会 清除 视差 图 中 闭塞 的 部 
分 。 实 现 该 想法 ， 然 后 将 结 来 和 一 个 方 癌 的 扫 平 面 的 结 末 比较 。 

(7) 纽约 公共 图 书馆 有 很 多 历史 悠久 的 立体 照片 。 打 开 http://stereo.nypl.org/gallery 并 下 载 
你 喜欢 的 照片 (点击 右 键 ， 保 存 为 JPEG 格式 的 文件 )。 这 些 图 像 应 该 进行 了 矫正 。 
将 照 厂 切 成 两 部 分 ， 在 该 图 像 上 运行 致密 深度 重建 代码 ， 然 后 查看 输出 结果 。 








op 6 = 








AS EET 28 LER RTE, HP RAB tay AE Aer RET RSE, Martina Ee ALY 
图 像 组 。 聚 类 可 以 用 于 识别 、 划 分 图 像 数 据 集 ， 组 织 与 导航 。 此 外 ， 我 们 还 会 对 聚 
类 后 的 图 像 进行 相似 性 可 视 化 。 


6.1 K-means 聚 类 


K-means 是 一 种 将 输入 数据 划分 成 x 个 徐 的 简单 的 聚 类 算法 。K-means 反复 提炼 初 
台 评 估 的 类 中 心 ， 步 又 如 下 : 


(1) 以 随机 或 猜测 的 方式 初始 化 类 中 心 uw,，i=1…k; 

(2) 将 每 个 数据 点 归并 到 离 它 距离 最 近 的 类 中 心 所 属 的 类 c; 

(3) 对 所 有 属于 该 类 的 数据 点 求 平均， 将 平均 值 作为 新 的 类 中 心 ; 
(4) 重复 步骤 (2) 和 和 步骤 (3) 直到 收敛 。 


K-means 试图 使 类 内 总 方差 最 小 : 


V= > Dem)’ 
x 是 输入 数据 ， 并 且 是 矢量 。 该 算法 是 启发 式 提炼 算法 ， 在 很 多 情形 下 都 适用 ， 但 
是 并 不 能 保证 得 到 最 优 的 结果 。 为 了 避免 初始 化 类 中 心 时 没 选取 好 类 中 心 初 值 所 千 
成 的 影响 ， 该 算法 通常 会 初始 化 不 同 的 类 中 心 进行 多 次 运算 ， 然 后 选择 方差 最 小 
的 结果 。 
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K-means fik fe KAY tk BA ve TC Ve EE FRR, MRE PED tet SM FARR 
HORE AR IRAL. ADEA DL, WAFER, 并且 对 于 很 多 别 的 问题 不 需 
要 任何 调整 就 能 够 直接 使 用 。 





6.1.1 Scipy 聚 类 包 
尽管 和 -means 算法 很 容易 实现 ， 但 我 们 没有 必要 目 己 实现 它 。scipy 矢量 量化 包 
scipy.cluster.vg 中 有 -means 的 实现 ,下面 是 使 用 方法 。 
为 便于 说 明 ， 我 们 先生 成 简单 的 二 维 数据 : 
from scipy.cluster.vq import * 


classi = 1.5 * randn(100,2) 
class2 = randn(100,2) + array([5,5]) 
features = vstack((class1,class2)) 


上 面 的 代码 生成 两 类 二 维 正 态 分 布 数据 。 用 k=2 对 这 些 数据 进行 聚 类 : 


centroids,variance = kmeans(features, 2) 





由 于 SciPy 中 实现 的 K-means 会 计算 若干 次 (默认 为 20 次 )， 并 为 我 们 选择 方差 最 
小 的 结 末 ， 所 以 这 里 返回 的 方差 并 不 是 我 们 真正 需要 的 。 现 在 ， 你 可 以 用 Scipy 包 
中 的 矢量 量化 国 数 对 每 个 数据 点 进行 归 类 : 


code,distance = vq(features, centroids) 





通过 上 面 得 到 的 code， 我 们 可 以 检查 古人 否 有 归 类 错误 。 为 了 将 其 可 视 化 ， 我 们 可 以 
画 出 这 些 数据 点 及 最 终 的 聚 类 中 心 : 





figure() 

ndx = where(code==0) [0] 
plot(features[ndx,0],features[ndx,1],'*") 
ndx = where(code==1)[0] 

plot (features[ndx,0],features[ndx,1],'r.') 
plot(centroids[:,0],centroids[:,1],'go') 
axis('off') 

show( ) 


国 数 where() 给 出 每 个 类 的 索引 ， 绘 制 出 的 结 采 如 图 6-1 所 示 。 











图 6-1: 一 个 对 二 维 数据 用 K-means 进行 聚 类 的 示例 。 类 中 心 标记 为 绿色 大 圆 环 ， 预 测 出 的 
类 分 别 标记 为 蓝 色 星 号 和 红色 点 。 


6.1.2 KRÆ 

让 我 们 在 1.3.6 节 的 字体 图 像 上 ， 我 们 用 K-means 对 这 些 字体 图 像 进 行 聚 类 。 文 件 
selectedfontimages.zip 包含 66 幅 来 自 该 字体 数据 集 fontinages WAR (为 了 便于 说 
明 这 些 聚 类 徐 ， 我 们 选择 这 些 图 像 做 简单 概述 ) 。 我 们 利用 之 前 计算 过 的 前 40 个 主 
成 分 进行 投 彩 ， 用 投影 系数 作为 每 幅 图 像 的 癌 量 摘 述 符 。 用 pickle 模块 载 入 模型 文 
件 ， 在 主 成 分 上 对 图 像 进行 投影 ， 然 后 用 下 面 的 方法 聚 类 : 


import imtools 
import pickle 
from scipy.cluster.vq import * 


# 获取 selected-fontimages 文件 下 图 像 文 件 名 ， 并 保存 在 列表 中 
imlist = imtools.get_imlist('selected fontimages/' ) 
imnbr = len(imlist) 


# BARRA SCF 

with open('a pca_modes.pkl','rb') as f: 
immean = pickle. load(f) 
V = pickle. load(f) 


# 创建 矩阵 ， 存 储 所 有 拉 成 一 组 形式 后 的 图 像 
immatrix = array([array(Image.open(im)).flatten() 
for im in imlist],'f') 


# 投影 到 前 40 个 主 成 分 上 
immean = immean.flatten() 
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projected = array([dot(V[:40],immatrix[i]-immean) for i in range(imnbr) |) 


# 进行 k-means RÆ 
projected = whiten(projected) 
centroids,distortion = kmeans (projected, 4) 


code,distance = vq(projected, centroids) 


与 之 前 一 样 ， 上 述 代码 code SPOS Ne eA BURT Tie. eH, RIE 
聚 类 数 k=4， 同 时 用 Scipy 的 whiten() 函数 对 数据 “白化 ”处 理 ， 并 进行 归 一 化 ， 
使 每 个 特征 具有 单位 方差 。 你 可 以 试 着 改变 其 中 的 参数 ， 比 如 主 成 分 数目 各， 观 
罕 聚 类 结案 有 何 改 变 。 利 用 下 面 的 代码 可 以 可 视 化 聚 类 后 的 结 琳 : 


# 绘制 聚 类 禾 
for k in range(4): 
ind = where(code==k) [0] 
figure() 
gray() 
for i in range(minimum(len(ind),40)): 
subplot (4,10, i+1) 
imshow(immatrix[ind[i]].reshape((25,25))) 
axis('off') 
show( ) 





1 AFR aE RE 7 RB ao, AeA BO Re UR 40 
幅 图 像 。 我 们 用 PyLab 的 subplot() 国 数 来 设 定 网 格 数 ， 图 6-2 是 上 面 对 字 体 图 像 聚 
成 4 类 后 的 可 视 化 结果 。 





关于 SciPy 中 K-means 实现 方法 以 及 scipy.cluster.vgq 模块 ， 详 见 参考 指南 : http:// 


docs.scipy.org/doc/scipy/reference/cluster.vq.html. 


6.1.3 EERS ETITI ER 
为 了 便于 观察 上 面 是 如 何 利 用 主 成 分 进行 聚 类 的 ， 我 们 可 以 在 一 对 主 成 分 方 回 的 坐 
标 上 可 视 化 这 些 图 像 。 一 种 方法 是 将 图 像 投 影 到 两 个 主 成 分 上 上， 改变 投影 为 : 








projected = array([dot(V[[0,2]],immatrix[i]-immean) for i in range(imnbr) }) 


以 得 到 相应 的 坐标 (在 这 里 V[[0,2]] 分 别 是 第 一 个 和 第 三 个 主 成 分 )。 当 然 ， 你 也 可 
以 将 其 投影 到 所 有 成 分 上 ， 之 后 挑选 出 你 需要 罗列 。 








agdaagmaaidad aaaaaaaaaa 
qaaaadaa ddadddaddd 


MACAMA adaaadad@a@d 
aaaaaÊaacl ad? 
dAAAdA 


6-2; 用 40 个 主 成 分 数 对 字体 图 像 进 行 K-means BÆ (k=4) 


我 们 用 PIL 中 的 ImageDraw 模块 进行 可 视 人 化。 假设 你 有 如 上 所 示 投 影 后 的 图 像 ， 及 
保存 有 图 像 文件 名 的 列表 ， 利 用 下 面 简短 的 脚本 可 以 生成 如 图 6-3 所 示 的 结果 : 





from PIL import Image, ImageDraw 


# 高 和 宽 


h,w = 1200,1200 


# 创建 一 幅 和 白色 背景 图 
img = Image.new('RGB', (w,h), (255,255,255)) 
draw = ImageDraw.Draw(img) 





# 绘制 坐标 轴 
draw. line((0,h/2,w,h/2), fill=(255,0,0)) 
draw. line((w/2,0,w/2,h),fill=(255,0,0)) 


# 缩放 以 适应 坐标 系 
scale = abs(projected).max(0) 
scaled = floor(array([ (p / scale) * (w/2-20,h/2-20) + (w/2,h/2) for p in projected])) 





# 粘贴 每 幅 图 像 的 缩 略 图 到 白色 背景 图 片 
for i in range(imnbr): 
nodeim = Image.open(imlist[i]) 
nodeim.thumbnail((25,25) ) 
ns = nodeim.size 
img .paste(nodeim, (scaled[i][0]-ns[0]//2,scaled[i][1]- 
ns[1]//2,scaled[i][0]+ns[0]//2+1,scaled[i][41]+ns[1]//2+1)) 


img.save('pca_ font. jpg') 
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图 6-3: 在 成 对 主 成 分 上 投影 的 字体 图 像 。 左 图 用 的 是 第 一 个 和 第 二 个 主 成 分 ， 右 图 用 的 是 
第 二 个 和 第 三 个 主 成 分 


这 里 ， 我 们 用 到 了 整数 或 floor 四 下 取 整 除法 运算 符 //， 通 过 移 去 小 数 点 后 面 的 部 
分 ， 可 以 返回 各 个 缩 略 图 在 白色 背景 中 对 应 的 整数 坐标 位 置 。 


这 类 图 像 说 明 这 些 字 体 图 像 在 40 维 里 的 分 布 情况 ， 对 于 选择 一 个 好 的 摘 述 子 很 有 大 
助 。 可 以 很 请 茎 地 看 到 ， 二 维 投影 后 相似 的 字体 图 像 距 离 较 近 。 


6.1.4 ”像素 聚 类 

在 结束 本 下 之前， 我 们 来 看 一 个 对 单 幅 图 像 中 的 像素 而 非 全 部 图 像 进行 聚 类 的 例子 。 
将 图 像 区 域 或 像素 合并 成 有 意义 的 部 分 称 为 图 像 分 害 ， 它 是 第 9 章 的 主题 。 除 了 在 
一 些 简 单 的 图 像 上 ， 单纯 在 像素 水 平 上 应 用 K-means 得 出 的 结 采 往往 是 这 无 意义 
的 。 要 产生 有 意义 的 结果 ， 往 往 需 要 更 复杂 的 类 模型 而 非 平均 像素 色彩 或 空间 一 致 
性 。 现 在 ， 我 们 仅 会 在 RGB =i ik WR ah bie FA K-means 进行 聚 类 ， 分 割 问 题 
的 处 理 方 法 会 在 之 后 谈 到 (9.2 节 ) 给 予 关 注 及 给 出 细节 部 分 。 

下 面 的 代码 示例 载 入 一 幅 图 像 ， 用 一 个 步 长 为 steps 的 方形 网 格 在 图 像 中 请 动 ， 每 
请 一 次 对 网 格 中 图 像 区 域 像 素 求 平均 值 ， 将 其 作为 新 生成 的 低 分 辨 率 图 像 对 应 位 置 
处 的 像素 值 ， 并 用 K-means 进行 聚 类 : 




















from scipy.cluster.vq import * 
from scipy.misc import imresize 


steps = 50 # 图 像 被 划分 成 steps x steps 的 区 域 
im = array(Image.open('empire. jpg' )) 





dx = im.shape[0] / steps 
dy = im.shape[1] / steps 


# 计算 每 个 区 域 的 颜色 特征 

features = |] 

for x in range(steps): 

for y in range(steps): 

R = mean(im[x*dx: (x+1)*dx, y*dy: (y+1)*dy,0]) 
G = mean(im[x*dx: (x+1)*dx, y*dy: (y+1)*dy,1]) 
B = mean(im[x*dx: (x+1)*dx, y*dy: (y+1) *dy, 2]) 
features .append([R,G,B]) 

features = array(features,'f') # 变 为 数组 


# RR 
centroids,variance = kmeans(features, 3) 
code,distance = vq( features, centroids) 


# 用 聚 类 标记 创建 图 像 
codeim = code.reshape(steps, steps) 
codeim = imresize(codeim, im. shape[:2],interp='nearest’ ) 


figure() 
imshow(codeim) 
show() 


K-means 的 输入 是 一 个 有 steps x steps 行 的 数组 ， 数 组 的 每 一 行 有 3 列 ， 各 列 分 别 
为 区 域 块 R、G、B 三 个 通道 的 像素 平均 值 。 为 可 视 化 最 后 的 结果 ,我们 用 Scipy 的 
imresize() 函数 在 原 图 像 坐标 中 显示 这 幅 steps x steps 的 图 像 。 参 数 interp 指定 插 
值 方法 ;我们 在 这 里 采用 最 近邻 插值 法 ， 以 便 在 类 间 进 行 变 换 时 不 需要 引入 新 的 像 
RIE. 


6-4 显示 了 用 50 x 50 和 100 x 100 窗口 对 两 幅 相 对 比较 简单 的 示例 图 像 进行 像素 
聚 类 后 的 结果 。 注 意 ，K-means 标签 的 次 序 是 任意 的 (在 这 里 的 标签 指 最 终结 果 中 
图 像 的 颜色 ) 。 正 如 你 所 看 到 的 ， 尽 管 利用 窗口 对 它 进行 了 下 采样 ， 但 结果 仍然 是 有 
噪声 的 。 如 果 图 像 基 些 区 域 没 有 空间 一 致 性 ， 则 很 难 将 它们 分 开 ， 如 下 方 图 中 小 男 
孩 和 章 坪 的 图 。 空 间 一 致 性 和 更 好 的 分 割 方 法 以 及 其 他 的 图 像 分 割 算法 会 在 后 面 讨 
论 。 现 在 ， 让 我 们 继续 来 看 下 一 个 基本 的 聚 类 算法 。 
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6-4: 基于 颜色 像素 值 用 K-means 对 像素 进行 聚 类 的 结果 。 左 边 是 原始 图 像 ， 中 间 是 用 k=3 
和 50 x 50 大 小 的 窗口 进行 聚 类 的 结果 ; 右边 是 用 k=3 和 100 x 100 大 小 的 窗口 进行 聚 类 的 结 


6.2 ”层次 聚 类 

层次 聚 类 (或 凝聚 式 聚 类 ) 是 另 一 种 简单 但 有 效 的 聚 类 算法 ， 其 思想 是 基于 样本 间 
成 对 距离 建立 一 个 简 相 似 性 树 。 该 算法 首先 将 特征 向 量 距离 最 近 的 两 个 样本 归并 为 
一 组 ， 并 在 树 中 创建 一 个 “平均 ”市 点 ， 将 这 两 个 距离 最 近 的 样本 作为 该 “平均 ” 
TA PITA: 然后 在 剩 下 的 包含 任意 平均 点 的 样本 中 寻找 下 一 个 最 近 的 对 ， 
重复 进行 前 面 的 操作 。 在 每 一 个 节点 处 保存 了 两 个 子 币 点 之 旧 的 距离 。 历 整个 树 ， 
通过 设 定 的 国 值 ， 志 历 过 程 可 以 在 比 国 值 大 的 节点 位 置 终止 ， 从 而 提取 出 聚 类 徐 。 


层次 聚 类 有 和 奋 干 优点 。 例 如 ， 利 用 树 结 构 可 以 可 视 化 数据 间 的 关系 ， 并 显示 这 些 禾 
是 如 何 关 联 的 。 在 树 中 ， 一 个 好 的 特征 向 量 可 以 给 出 一 个 很 好 的 分 离 结果 。 男 外 一 
个 优点 古 ， 对 于 给 定 的 不 同 的 国 值 ， 可 以 直接 利用 原来 的 树 ， 而 不 需要 重新 计算 。 














不 足 之 处 是 ， 对 于 实际 需要 的 聚 类 徐 ， 我 们 需要 选择 一 个 合适 的 国 值 。 


让 我 们 看 看 层次 聚 类 算法 怎样 在 代码 中 体现 。 创 建文 件 hcluster.py， 将 下 面 代码 添 
加 进去 (该 代码 受 参 考 文献 [31] 中 层次 聚 类 例子 的 局 发 ) : 


from itertools import combinations 


class ClusterNode(object): 
def init  (self,vec,left,right,distance=0.0,count=1): 
selt dert = lert 
self.right = right 
self.vec -= vec 
self.distance = distance 
self.count = count # 只 用 于 加 权 平 均 


def extract_clusters(self,dist): 
""" 从 层次 聚 类 树 中 提取 中 离 小 于 dist 的 子 树 禾 群 列表 """ 


if self.distance < dist: 





return [self] 
return self.left.extract_clusters(dist) + self.right.extract_clusters(dist) 


def ae cluster elements(self): 
Wud 聚 类 子 树 中 返 回 元 素 的 jd mn 
return self.left.get cluster elements() + self.right.get_ cluster elements() 





def get_height(self): 
nun 返回 节点 的 高 度 ， 高 度 是 各 2 分 支 的 和 mn 
return self.left.get height() + self.right.get_height() 





def get _depth(self): 
“"" 返回 节点 的 深度 ， 深 度 是 每 个 子 节点 取 最 大 再 加 上 它 的 自身 距离 "" 
return max(self.left.get depth(), self.right.get depth()) + self.distance 


class ClusterLeafNode(object): 
def init (self,vec,id): 
self.vec = vec 
self.id = id 


def extract_clusters(self,dist): 
return [self | 


def get cluster elements(self): 
return [self.id] 


: TE Scipy 聚 类 包 中 ， 有 一 个 层次 聚 类 的 版 本 ， 如 采 你 喜欢 可 以 直接 使 用 。 因 为 我 们 需要 创建 树 、 并 用 
缩 略 图 可 视 化 树 状 图 的 类 ， 所 以 这 里 我 们 不 使 用 该 版 本 。 





图 像 聚 类 | 145 


def get_height(self): 
return 1 


def get _depth(self): 
return 0 


def L2dist(v1,v2): 
return sqrt(sum((v1-v2)**2) ) 


def Lidist(v1,v2): 
return sum(abs(v1-v2) ) 


def hcluster(features,distfcn=L2dist): 
"FELIS JA TAPE EAT IR """ 





# 用 于 保存 计算 出 的 距离 


distances = {} 


# 每 行 初始 化 为 一 个 族 
node = [ClusterLeafNode(array(f),id=i) for i,f in enumerate(features) | 


while len(node)>1: 
closest = float('Inf') 





# 遍历 每 对 ， 寻 找 最 小 中 离 
for ni,nj in combinations(node,2): 
if (ni,nj) not in distances: 
distances[ni,nj] = distfcn(ni.vec,nj.vec) 


d = distances[ni,nj] 
if d<closest: 
closest = d 
lowestpair = (ni,nj) 
ni,nj = lowestpair 


# 对 两 个 簇 求 平均 


new vec = (ni.vec + nj.vec) / 2.0 


# BESTA M 

new node = ClusterNode(new_vec, left=ni, right=nj,distance=closest) 
node. remove(ni) 

node. remove(nj) 

node. append(new_node) 


return node[0| 
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我 们 为 树 市 点 创建 了 两 个 类 ， 即 ClusterNode 和 ClusterLeafNode， 这 两 个 类 将 用 于 
创建 聚 类 树 ， 其 中 国 数 hcluster() 用 于 创建 树 。 首 先 创 建 一 ae 点 的 列表 ， 
然后 根据 选择 的 距离 度量 方式 将 距离 最 近 的 对 归并 到 一 起 ， 返 回 的 终 节 点 即 为 树 的 
根 。 对 于 一 个 行为 特征 问 量 的 矩阵 ， 运 行 hcluster() 会 创建 和 返回 聚 类 树 。 


距离 度量 的 选择 依赖 于 实际 的 特征 向 量 ， 这 里 我 们 利用 欧式 距离 L-，( 同 时 提供 了 
L 距离 度量 函数 )， 不 过 你 可 以 创建 任意 距离 度量 函数 ， 并 将 它 作 为 参数 传递 给 
hcluster()。 对 于 每 个 子 树 ， 计 算 其 所 有 方 点 特征 癌 量 的 平均 值 ， 作 为 新 的 特征 问 
量 来 表示 该 子 树 ， 并 将 每 个 子 树 视 为 一 个 对 象 。 当 然 ， 还 有 其 他 将 哪 两 个 节点 合并 
在 一 起 的 方案 ， 比 如 在 两 个 子 树 中 使 用 对 象 则 距离 最 小 的 单 向 锁 ， 及 在 两 个 子 树 中 
用 对 象 间距 离 最 大 的 完全 锁 。 选 择 不 同 的 锁 会 生成 不 同类 型 的 紧 类 树 。 


为 了 从 树 中 提取 聚 类 禾 ， 需 要 从 央 部 壳 历 树 直 至 一 个 距离 小 于 设 定 国 值 的 节点 终止 ， 
这 通过 递归 很 容易 做 到 。ClusterNode 的 extract clusters() 方法 用 于 处 理 该 过 程 ， 
如 果 诈 点 间距 离 小 于 阅 值 ， DA 个 列表 返回 节点 ， 人 否则 调用 子 节 点 ( 叶 布 点 通常 

回 它们 自身)。 调 用 该 函数 会 返回 一 个 包含 聚 类 族 的 子 树 列 表 。 对 于 每 一 个 子 聚 
类 族 ， 为 了 得 到 包含 对 象 id A 需要 过 历 每 个 子 树 ， 并 用 方法 get_cluster_ 
elements() 返回 一 个 包含 叶 币 点 的 列表 。 


下 面 ， 我 们 在 一 个 简单 的 例子 中 观察 该 聚 类 过 程 。 首 先 创 建 一 些 二 维 数 据点 (和 之 
前 K-means 一 样 ) : 








classi = 125% “randi(10052) 
class2 = randn(100,2) + array([5,5]) 
features = vstack((class1,class2)) 


对 这 些 数 据点 进行 聚 类 ， 设 定 国 值 《这 里 的 国 值 设 定 为 5) ， 从 列表 中 提取 这 些 聚 类 
禾 ， 并 在 控制 台 打 印 出 来 : 


import hcluster 

tree = hcluster.hcluster(features ) 
clusters = tree.extract_clusters(5) 

print ‘number of clusters’, len(clusters) 


fOr Cin Clusters: 
print c.get cluster elements() 


打印 结 采 应 该 与 下 面 类 似 : 


number of clusters 2 
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更 多 这 主要 依赖 于 实际 生成 的 二 维 数据 。 在 这 个 对 二 维 数据 聚 类 的 简单 例子 中 ， 一 
个 类 中 的 值 应 该 小 于 100， 另 外 一 个 应 该 大 于 等 于 100, 
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我 们 来 看 一 个 基于 图 像 颜 色 信 息 对 图 像 进行 聚 类 的 例子 。 文 件 sunsets.zip 中 包含 100 sk 
图 像 ， 这 些 图 像 是 用 “sunset” 和 “sunsets” 关 键 字 在 Flickr 下 载 下 来 的 。 在 这 个 例子 
中 ， 我 们 用 颜色 直方 图 作为 每 幅 图 像 的 特征 癌 量 。 虽 然 这 样 处 理 有 些 向 单 粗 糙 ， 但 仍 
然 能 够 很 好 地 说 明 分 层 聚 类 的 过 程 。 在 包 仿 这 些 日 落 图 像 的 文件 夹 中 运行 下 面 的 代码 : 


import os 


import hcluster 


# 创建 图 像 列 表 
path = 'flickr-sunsets/' 








imlist = [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.jpg') ] 


# 提取 特征 向 量 ， 每 个 颜色 通道 量化 成 8 个 小 区 间 
features = zeros([len(imlist), 512]) 
for i,f in enumerate(imlist): 


im = array(Image.open(f) ) 


# 多 维 直 方 图 


h,edges 


histogramdd(im.reshape(-1,3),8,normed=True, 


range=[(0,255),(0,255), (0,255) ]) 


features[i] = h.flatten() 


tree = hcluster.hcluster(features ) 


我 们 将 R、G、B 三 个 颜色 通道 作为 特征 向 量 ， 将 其 传递 到 NumPy 的 histogramdd() 
中 ， 该 函数 能 够 计算 多 维 直 方 图 (本 例 中 是 三 维 )。 我 们 在 每 个 颜色 通道 中 使 用 8 个 
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小 区 间 进 行 量化 ， 将 三 个 通道 量化 后 的 小 区 间 拉 成 一 行 后 便 可 用 512 (8x 8x8) 4 
的 特征 问 量 描述 每 幅 图 像 。 为 避免 图 像 尺 寸 不 一 怪 ， 我 们 用 “normed=True” 归 一 化 
直方 图 ， 并 将 每 个 颜色 通道 范围 设置 为 0...255。 将 reshape() 第 一 个 参数 设置 为 -1 
会 自动 确定 正确 的 尺寸 ， 故 可 以 创建 一 个 输入 数组 来 计算 以 RGB 颜色 值 为 行 问 量 的 
直方 图 。 

为 了 可 视 化 聚 类 树 ， 我 们 可 以 画 出 树 状 图 。 树 状 图 是 一 种 显示 树 布局 的 图 表 。 在 判 
定 给 出 的 的 述 子 同 量 好 坏 ， 以 及 在 特征 场合 芳 虑 什么 是 相似 的 时 候 ， 树 状 图 可 以 提 
供 有 用 的 信息 。 将 下 面 的 代码 添加 到 hcluster.py 中 : 





from PIL import Image, ImageDraw 


def draw_dendrogram(node, imlist, filename='clusters.jpg'): 


"" 绘制 聚 类 树 状 图 ， 并 保存 到 文件 中 "”" 


# 高 和 宽 
rows = node.get_height()*20 
cols = 1200 


# 距离 缩放 因子 ， 以 便 适 应 图 像 宽度 
s = float(cols-150)/node.get depth() 


# 创建 图 像 ， 并 绘制 对 象 
im = Image.new('RGB', (cols,rows),(255,255,255)) 
draw = ImageDraw.Draw(im) 


# 初始 化 树 开始 的 线条 
draw. line((0,rows/2,20,rows/2),fill=(0,0,0)) 


# 递归 地 画 出 节点 

node. draw(draw, 20, (rows/2),s,imlist, im) 
im.save(filename) 

im. show() 


ZE, PRK REA ST draw) 方法 ， 将 该 方法 添加 到 ClusterNode 类 中 : 


xs 


def draw(self,draw,x,y,s,imlist,im): 


vo" 用 图 像 缩 咯 图 递归 地 画 出 叶 节点 """ 


h1 = int(self.left.get height()*20 / 2) 
h2 = int(self.right.get_height()*20 /2) 
top = y-(h1+h2) 

bottom = y+(h1+h2) 


# TURER 
draw. line((x, topth1,x,bottom-h2),fill=(0,0,0)) 





图 像 聚 类 | 149 


# 水 平 线 

Ll. =s selfa stances 

draw. line((x, topth1, x+11, top+h1) , fill=(0,0,0)) 

draw. Line((x,bottom-h2,x+l1l,bottom-h2), fill=(0,0,0)) 


# 递归 地 画 左 边 和 右边 的 子玉 点 
self.left.draw(draw,x+11l,top+h1,s,imlist,im) 
self.right.draw(draw, xtll,bottom-h2,s,imlist, im) 





在 画 实 际 图 像 缩 略图 上 时， 叶 节 点 有 自己 的 方法 ， 将 该 方法 添加 到 ClusterLeafNode 
类 中 : 


def draw(self,draw,x,y,s,imlist,im): 
nodeim = Image.open(imlist[self.id]) 
nodeim. thumbnail (| 20, 20] ) 
ns = nodeim.size 
im. paste(nodeim, [int(x), int(y-ns[1]//2), int(x+ns[0]),int(ytns[1]-ns[1]//2) ]) 


树 状 图 的 高 和 子 部 分 由 距离 决定 ， 这 些 都 需要 调整 适应 所 选择 的 图 像 分 辩 率 。 
随 着 坐标 向 下 传递 到 下 一 级 ， 会 递归 给 E E 
叶 节 点 的 缩 略 图 ， 使 用 get height() # get depth() 这 两 个 辅助 函数 可 以 获得 树 的 


高 和 宽 。 
树 状 图 可 以 通过 下 面 的 代码 绘制 ， 并 保存 在 sunset.pdf 中 : 
hcluster.draw_dendrogram(tree, imlist, filename='sunset.pdt' ) 


图 6-5 展示 了 日 沙 图 像 聚 类 后 的 树 状 图 。 可 以 看 到 ， 树 中 颜色 相似 的 图 像 跑 离 较 近 
到 6-6 中 为 三 个 示例 竹 。 可 以 通过 下 面 的 代码 提取 该 例子 中 的 禾 


# 设置 一 些 (任意 的 ) TLL HT UCR ARIK 


clusters = tree.extract clusters(0.23*tree.distance) 





# 绘制 聚 类 禾 中 元 素 超过 3 个 的 那些 图 像 
torc in clusters: 
elements = c.get_cluster_elements() 
nbr elements = len(elements) 
if nbr_elements>3: 
figure() 
for p in range(minimum(nbr_ elements, 20)): 
subplot(4,5,p+1) 
im = array(Image.open(imlist[elements|[p]])) 
imshow(im) 
axis('off') 
show( ) 
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A 6-5: 用 100 幅 日 落 图 像 进行 层次 聚 类 ， 将 RGB 空间 的 512 个 小 区 间 直 方 图 作为 每 幅 图 
像 的 特征 向 量 。 树 中 挨 的 相近 的 图 像 具 有 相似 的 颜色 分 布 
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图 6-6: 用 100 幅 日 落 图 像 进行 层次 聚 类 的 示例 聚 类 艇 ， 阔 值 集合 设 定 为 树 中 最 大 节点 距离 
的 23% 


作为 最 后 一 个 例子 ， 我 们 对 前 面 的 字体 图 像 创 建 一 个 树 状 图 : 


tree = hcluster.hcluster(projected) 
hcluster.draw_dendrogram(tree, imlist, filename='fonts.jpg' ) 


其 中 ，projected 和 imlist 是 6.1 节 K-means 例子 中 的 变量 。 图 6-7 显示 了 对 字体 图 
像 进行 层次 聚 类 后 的 树 状 图 。 


6.3 WRX 


谱 肥 类 方法 是 一 种 有 趣 的 聚 类 算法 ， 与 前 面 K-means 和 层次 聚 类 方法 截然 不 同 。 


Fn cH (An WHR), tase (eH Ae HER, APERI BEE) 是 一 个 
nX n WISER, FEBS Ee A TA ABLE a ie, BE BR AE PD PE BE RY 
建 谱 矩阵 而 得 名 的 。 对 该 谱 矩阵 进行 特征 分 解 得 到 的 特征 向 量 可 以 用 于 降 维 ， 然 后 


RK. 


详 聚 类 的 优点 之 一 是 仅 需 输入 相似 性 和 矩阵， 并 且 可 以 采用 你 所 想到 的 任 总 度量 方式 
构建 该 相似 性 矩阵 。 像 K-means 和 层次 聚 类 需要 计算 那些 特征 癌 量 求 平均 ， 为 了 计 
算 平 均值 ， 会 将 特征 或 描述 子 限 制 为 癌 量 。 而 对 于 谱 方 法 ， 特 征 问 量 就 没有 类 别 限 
制 ， 只 要 有 一 个 “距离 ”或 “相似 性 ”的 概念 即 可 。 
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图 6-7: 用 66 幅 选 定 字体 图 像 ， 使 用 40 个 主 成 分 作为 特征 量 ， 用 层次 聚 类 方法 进行 聚 类 


下 面 说 明 谱 聚 类 的 过 程 。 给 定 一 个 nxn 的 相似 矩阵 S$，s; 为 相似 性 分 数 ， 我 们 可 以 
创建 一 个 矩阵 ， 称 为 拉 普 拉 斯 矩阵 : 


L 2 I- D PSD’ 





注 1: 拉 普 拉 斯 矩阵 有 时 可 以 用 Z=D“ SD RE, HOPE AA, AE ROSIE, mA AERE 
[Fl o 
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其 中 , I 是 单位 矩阵, D 是 对 角 和 矩阵 ， 对 角 线 上 的 元 素 是 S$ 对 应 行 元 素 之 和 ， 
D=diag(d), 4= 2 ,5;。 拉 普 拉 斯 算 阵 中 的 D A: 








poes Jad . 
ile. 
Vd, 
J TERRE Hi, XFA EHE BE PA Se s;， 我 们 使 用 较 小 的 值 并 且 要 求 
sj 宇 0 (在 这 种 情况 下 ， 距 离 矩 阵 可 能 更 合适 )。 


计算 工 的 特征 回 量 ， 并 使 用 个 最 大 特征 值 对 应 的 个 特征 癌 量 ， 构 建 出 一 个 特征 
器 量 集 ( 记 住 ， 我 们 可 能 并 没有 以 任何 东西 来 开始 )， 类 族 。 创 建 一 
个 和 矩阵， 该 矩阵 的 各 列 是 由 之 前 求 出 的 上 个 特征 同 量 构成 ， 每 一 行 可 以 看 做 一 个 新 
的 特征 同 量 ， 长 度 为 k。 这 些 新 的 et a a Rae, Æ 
DORA HIER AE HR FME, TRR R EF J WZ A FP HY A eH BE OD SR SY 
Br ee IE [el x 在 某 些 情况 下 ， 不 会 首先 使 用 聚 类 算法 。 


讲解 了 足够 的 理论 ， 我 们 来 看 看 真实 的 例子 中 谱 聚 类 算法 的 代码 。 我 们 再 次 使 用 
1.3.6 Ý K-means 例子 中 的 字体 图 像 。 


from scipy.cluster.vq import * 
n = len(projected) 


# 计算 距离 矩阵 
S = array([[ sqrt(sum((projected[i]-projected[j])**2)) 
for i in range(n) ] for j in range(n)], 'f') 


# 创建 拉 普 拉 斯 矩阵 

rowsum = sum(S,axis=0) 

D = diag(1 / sqrt(rowsum) ) 
I = identity(n) 

L = I - dot(D,dot(S,D)) 





# 计算 矩阵 | 的 特征 向 量 
U,sigma,V = linalg.svd(L) 


k = 5 
MERE L 的 前 《个 特征 向 量 (eigenvector) 中 创建 特征 向 量 (feature vector) 
至 加 特征 向 量 作 为 数组 的 列 


+ + 





features = array(V[:k]).T 


# k-means RÆ 

features = whiten(features) 
centroids,distortion = kmeans(features,k) 
code,distance = vq( features, centroids) 


# 绘制 聚 类 禾 
for c in range(k): 
ind = where(code==c) [0] 
figure() 
for i in range(minimum(len(ind),39)): 
im = Image.open(path+imlist[ind[i] ]) 
subplot (4, 10, i+1) 
imshow(array (im) ) 
axis('equal') 
axis('off') 
show() 


在 本 例 中 ,我 们 用 两 两 旧 的 欧式 距离 创建 矩阵 S$， 并 对 个 特征 癌 量 (eignvector) 
FA #7 ALA) K-means TRR (在 该 例 中 ，f=5)。 注 意 ， 和 矩阵 人 包含 的 是 对 特征 值 
进行 排序 后 的 特征 问 量 。 最 后 ， 绘 制 出 这 些 聚 类 族 。 图 6-8 显示 了 运行 后 的 聚 类 和 族 ，; 
需要 记 住 的 古 ， 在 K-means 阶段 ， 每 次 运行 的 结 末 可 能 不 同 。 








WAGHWWAN @CAa@da@tdcdadad 
a 


agadaAAaaAAaAdaAAAa Qaadadaaadtil 
adda adadadaaadqacda 


qgagda@adaagamaa@aga 
aaaa 
6-8: 用 拉 普 拉 斯 息 阵 的 特征 向 量 对 字体 图 像 进行 谱 聚 类 


我 们 也 可 以 在 没有 任何 特征 问 量 或 没有 严格 定义 相似 性 的 例子 中 尝试 该 算法 。2.3 市 
中 带 有 地 理 标签 的 Panoramio 图 像 是 基于 它们 之 间 有 多 少 匹 配 的 局 部 描述 符 连接 起 
来 的 。2.3.2 证 的 矩阵 是 一 个 用 分 数 表示 的 相似 性 矩阵 ， 其 中 分 数 等 于 匹配 的 特征 数 
(没有 归 一 化 )。 由 于 imlist 列表 包含 了 图 像 文件 名 ， 并 已 用 NumPy 的 savetxt() 将 相 
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似 性 矩阵 保存 到 了 文件 中 ， 所 以 我 们 只 需 修改 上 而 代 码 的 前 面 儿 行 : 


n = len(imlist) 


# 载 入 相似 矩阵 并 重新 格式 化 


S = loadtxt('panoramio matches.txt' ) 
Se 7 15.4 16-6) 


这 里 对 分 数 进行 转换 ， 使 得 相似 图 像 的 分 数值 较 小 ， 这 样 我 们 就 不 需要 修改 上 面 的 
代码 。 我 们 添加 了 一 个 很 小 的 数 以 防止 与 0 相 除 ， 后 面 的 代码 不 需要 修改 。 


在 该 例 中 选择 kx 有些 技 巧 。 很 多 人 会 认为 这 里 只 有 两 类 ( 即 白宫 的 两 侧 )， 以 及 其 他 
一 些 垃圾 图 像 。 用 k=2 可 以 得 到 类 似 图 6-9 WOR, EP RAKE ERA 
宫 一 侧 的 图 像 ， 另 一 个 聚 类 徐 是 白宫 另 一 侧 的 图 像 和 其 他 所 有 垃圾 图 像 。 将 丰 设 定 
为 一 个 较 大 的 值 ， 比 如 k=10， 则 有 些 聚 类 簇 可 能 只 包含 一 幅 图 像 (很 可 能 是 垃圾 图 
像 ) ， 另 一 些 是 真实 的 聚 类 符 。 图 6-10 给 出 了 上 面 示例 代码 运行 的 结果 。 在 该 例 中 ， 
仅 有 两 个 真实 的 聚 类 徐 ， 每 个 聚 类 徐 包 含 和 白宫 一 个 侧面 的 图 像 。 




















图 6-9: 用 人 =2、 局 部 特征 匹配 数 作为 相似 性 分 数 对 日 写 地 理 图 像 进行 谱 聚 类 的 结果 














on 10: A k10, 局 部 特征 匹配 数 作为 相似 性 分 数 对 日 宫 地 理 图 像 进 行 谱 聚 类 的 结果 。 这 
只 展示 了 图 像 数 大 于 1 的 聚 类 艇 


这 里 展示 的 谱 聚 类 算法 有 很 多 不 同 的 版 本 供 选 择 ， 它 们 对 如 何 构 造 矩 阵 工 和 如 何 处 理 
PTE AS AREA, PTR EE AAA, Ze LEIA CEE [37]。 


练习 


(1) 层次 K-means 是 一 种 聚 类 方法 ， 该 方法 递归 地 应 用 K-means 进行 聚 类 ， 创 建 一 
棵 和 逐步 提炼 聚 类 徐 的 树 。 在 此 情形 下 ， 树 的 每 一 个 节点 都 有 大 个 子 节 点 。 实 现 层 
次 K-means 算法 并 应 用 到 前 面 的 字体 图 像 上 。 

(2) 类 似 层 次 聚 类 生成 树 状 图 ， 使 用 上 面 练习 中 的 层次 K-means 算法 ， 将 树 可 视 化 ， 

显示 每 个 聚 类 复 区 点 的 平均 图 像 。 提 示 : 你 可 以 歼 取 平 均 PCA 系数 特征 癌 量 ， 
并 用 PCA 的 基 对 每 个 特征 向 量 进 行 图 像 合成 。 

(3) 通过 修改 层次 聚 类 所 使 用 的 类 以 包含 市 点 下 的 图 像 数 ， 你 可 以 获得 一 种 人 简单 快速 
的 方法 来 寻找 给 定 大 小 的 相似 组 。 实 现 这 个 小 的 改动 ， 并 用 于 处 理 真 实 的 数据 ， 
看 看 其 表现 如 何 。 

(4) 用 单 向 俩 和 完全 锁 来 构建 层次 肾 类 树 进 行 实验 ， 这 些 聚 类 后 的 族 有 什么 不 同 ? 

(5) 在 一 些 谱 聚 类 算法 中 ， 用 到 的 是 矩阵 是 D'S 而 不 是 工 。 用 该 矩阵 代替 拉 普 拉 斯 
和 矩阵， 并 将 其 应 用 于 一 些 不 同 的 数据 集 。 

(6) 从 Flickr 下 载 一 些 用 不 同 关 键 字 搜索 出 的 图 像 ， 像 之 前 的 日 沙 图 像 一 样 提取 
RGB 直方 图 ， 用 本 章 介 绍 的 某 个 聚 类 方法 对 这 些 图 像 进行 聚 类 。 你 能 用 这 些 聚 
类 族 分 开 这 些 图 像 吗 ? 
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图 像 搜 索 





本 半 将 展示 如 何 利 用 文本 挖掘 技术 对 基于 图 像 视 完 内 容 进 行 图 像 搜 索 。 本 半 阐 明了 
提出 利用 视 沉 单词 的 基本 思想 ， 并 解释 了 完整 的 安装 细 习 ， 还 在 一 个 示例 数据 集 上 
进行 了 测试 。 


7.1 基于 内 容 的 图 像 检索 


在 大 型 图 像 数 据 库 上 ，CBIR (Content-Based Image Retrieval， 基 于 内 容 的 图 像 检 索 ) 
技术 用 于 检索 在 视觉 上 有 具 相 似 性 的 图 像 。 这 样 返 回 的 图 像 可 以 是 颜色 相似 、 纹 理 相 
似 、 图 像 中 的 物体 或 场景 相似 ; 总 之 ， 基 本 上 可 以 是 这 些 图 像 上 自身 共有 的 任何 信息 。 


对 于 高 层 查 询 ， 比 如 寻找 相似 的 物体 ， 将 查询 图 像 与 数据 库 中 所 有 的 图 像 进行 完全 
比较 (比如 用 特征 匹配 ) 往往 是 不 可 行 的 。 在 数据 库 很 大 的 情况 下 ， 这 样 的 查询 方 
式 会 耗费 过 多 时 间 。 在 过 去 的 儿 年 里 ,人 研究 者 成 功 地 引入 文本 挖 气 技术 到 CBIR 中 
处 理 问题 ， 使 在 数 百 万 图 像 中 搜索 具有 相似 内 容 的 图 像 成 为 可 能 


ees xe lel ee 

空间 模型 是 一 个 用 于 表示 和 搜索 文本 文档 的 模型 。 我 们 将 看 到 ， 它 基本 上 可 以 
应 用 于 任何 对 旬 奖 型， 包括 国信 。 WE eee O kxe, eam 
是 由 文本 词 频 直方 图 构成 的 '。 换 句 话说 ， 矢 量 包含 了 每 个 单词 出 现 的 次 数 ， 而 且 在 














注 1: 经 第 可 以 看 到 用 “术语 ”替代 “ 词 *"， 两 者 在 矢量 空间 模型 中 表达 的 意义 相同 。 
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其 他 别 的 地 方 包 含 很 多 0 元素。 由 于 其 忽略 了 单词 出 现 的 顺序 及 位 置 ， 该 模型 也 被 
PRAY BOW 表示 模型 。 


通过 单词 计数 来 构建 文档 直方 图 向 量 v， 从 而 建立 文档 索引 。 通 常 ， 在 单词 计数 时 
会 名 上 略 掉 一 些 常 用 词 ， 如 这 “和” 是” 等， 这 些 第 用 词 称 为 停 用 词 。 由 于 每 篇 
文档 长 度 不 同 ， 故 除 以 直方 图 总 和 将 向 量 归 一 化 成 单位 长 度 。 对 于 直方 图 丫 量 中 的 
每 个 元 素 ， 一 般 根据 每 个 单词 的 重要 性 来 赋予 相应 的 权重 。 通 常 ， 数 据 集 (或 语 料 
E) 中 一 个 单词 的 重要 性 与 它 在 文档 中 出 现 的 次 数 成 正比 ， 而 与 它 在 语料库 中 出 现 
的 次 数 成 反比 。 











最 常用 的 权重 是 tf-idf (term frequency-inverse document frequency， 词 频 - 逆 癌 文 
档 频率 )， 单 词 w 在 文档 d 中 的 词 频 是 : 


tf, a = Mw 


27 
n, 是 单词 w 在 文档 4 中 出 现 的 次 数 。 为 了 归 一 化 ， 将 nn, 除 以 整个 文档 中 单词 的 总 数 。 
拷问 文档 频率 为 : 





\(D)| 
eae edy 





idf,.a = 


四 是 在 语料库 九 中 文档 的 数目 ， 分 母 是 语料库 中 包含 单词 w 的 文档 数 g。 将 两 者 
相 乘 可 以 得 到 矢量 "中 对 应 元 素 的 tf-idf 权重 。 关 于 tf-idf， 详 见 http://en.wikipedia. 
org/wiki/Tf-idf, 


PAMER] Bn Be EY AA, FR POR LE BB EEE A A Do FB 
“ae PA 2 HY FL BR as 5 HS HE 


7.2 视觉 音 词 

为 了 将 文本 挖掘 技术 应 用 到 图 像 中 ， 我 们 首先 需要 建立 视觉 等 效 单词 ;这 通 销 可 以 
采用 2.2 市 中 介绍 的 SIFT 局 部 摘 述 子 做 到 。 它 的 思想 是 将 描述 子 空 间 量 化 成 一 些 典 
型 实例 ， 并 将 图 像 中 的 每 个 描述 子 指 派 到 其 中 的 某 个 实例 中 。 这 些 典 型 实例 可 以 通 
过 分 析 训 练 图 像 集 确定 ， 并 被 视 为 视觉 单词 。 所 有 这 些 视 觉 单词 构成 的 集合 称 为 视 
觉 词 汇 ， 有 时 也 称 为 视觉 码 本 。 对 于 给 定 的 问题 、 图 像 类 型 ， 或 在 通常 情况 下 仅 需 
呈现 视觉 内 容 ， 可 以 创建 特定 的 词汇 。 


从 一 个 (很 大 的 训练 图 像 ， 集 提取 特征 描述 子 ， 利 用 一 些 聚 类 算法 可 以 构建 出 视觉 
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单词 。 聚 类 算法 中 最 常用 的 是 K-means ， 这 里 也 将 采用 K-means。 视 觉 单词 并 不 高 
端 ， 只 是 在 给 定 特 征 拉 述 子 空 间 中 的 一 组 癌 量 集 ， 在 采用 K-means 进行 谷类 时 得 到 的 
视觉 单词 是 聚 类 质心 。 用 视觉 单 词 直方 图 来 表示 图 像 ， 则 该 模型 便 称 为 BOW 模型 。 


我 们 首先 介绍 一 个 示例 数据 集 ， 并 利用 它 来 说 明 BOW 概念 。 文 件 first1000.zip 包 
含 了 有 肯塔基 大 学 物体 识别 数据 集 (或 称 “ukbench”) 的 前 1000 幅 图 像 。 完 整 的 数 
据 集 、 公 布 的 基准 和 一 些 配 套 代 码 参 见 http://www.vis.uky.edu/~stewe/ukbench/。 访 
ukbench 数据 集 有 很 多 子 集 ， 每 个 子 集 包 含 四 幅 图 像 ， 这 四 幅 图 像 具 有 相同 的 场景 
或 物体 ， 而 且 存 储 的 文件 名 是 连续 的 ， 即 0 . . . 3 属于 同一 图 像 子 集 ，4 . . .7 属于 另 
外 同一 图 像 子 集 ， 以 此 类 推 。 图 7-1 展示 了 数据 集中 的 一 些 图 像 ， 附 录 B.4 给 出 了 
该 数据 集 的 细 十 以 及 获取 方法 。 

















7-1; ukbench (肯塔基 大 学 物体 识别 数据 集 ) 数据 集中 的 一 些 图 像 


TE 1: 或 在 更 加 高 级 的 场合 下 使 用 层次 K-means。 





图 像 搜 索 | 161 


创建 词汇 

为 创建 视 贫 单词 词汇 ， 首 和 驳 需 要 担 取 特 征 描述 子 。 这 里 ， 我 们 使 用 SIFT 特征 描述 
子 。 如 前 面 一 样 ，imlist 包含 的 古 图 像 的 文件 名 。 运 行 下 面 的 代码 ， 可 以 得 到 每 幅 
图 像 提 取出 的 描述 子 ， 并 将 每 幅 图 像 的 描述 子 保存 在 一 个 文件 中 : 


nbr images = len(imlist) 
featlist = | imlist[i][:-3]+'sift' for i in range(nbr_images) | 


for i in range(nbr_ images): 
sift.process image(imlist[i],featlist[i]) 


创建 名 为 vocabulary.py 的 文件 ， 将 下 面 代码 添加 进去 。 该 代码 创建 一 个 词汇 类 ， 以 
及 在 训练 图 像 数 据 集 上 训练 出 一 个 词汇 的 方法 : 


from scipy.cluster.vq import * 
import vlfeat as sift 


class Vocabulary(object) : 


def init (self,name): 
self.name = name 
self.voc = |] 
self.idf = [] 
self.trainingdata = [] 
self.nbr words = 0 
def train(self, featurefiles,k=100, subsampling=10): 
"用 含有 K 个 单词 的 K-means 列 出 在 featurefiles 中 的 特征 文件 训练 出 一 个 词汇 。 对 训练 数据 下 
采样 可 以 加 快 训练 速度 """ 


nbr images = len(featurefiles) 

# 从 文件 中 读 取 特征 

descr = |] 

descr.append(sift.read features from file(featurefiles[0])[1]) 

descriptors = descr[0] # 将 所 有 的 特征 并 在 一 起 ， 以 便 后 面 进行 K-means RX 

for i in arange(1,nbr images ) : 
descr.append(sift.read features from file(featurefiles[i])[1]) 





descriptors = vstack((descriptors,descr[i])) 


# K-means: 最 后 一 个 参数 决定 运行 次 数 
self.voc,distortion = kmeans(descriptors|[::subsampling,:|,k,1) 
self.nbr words = self.voc.shape[0] 


# 遍历 所 有 的 训练 图 像 ， 并 投影 到 词汇 上 


imwords = zeros((nbr_images,self.nbr words) ) 
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for i in range( nbr images ): 
imwords[i] = self.project(descr[i]) 


nbr occurences = sum( (imwords > 0)*1 ,axis=0) 


self.idf = log( (1.0*nbr_ images) / (1.0*nbr occurences+1) ) 
self.trainingdata = featurefiles 

def project(self,descriptors): 
O 将 描述 子 投影 到 词汇 上 ， 以 创建 单词 直方 图 """ 


# 图 像 单词 直方 图 

imhist = zeros((self.nbr words)) 
words,distance = vq(descriptors,self.voc) 
for w in words: 


上 > 


imhist[w] += 


return imhist 





Vocabulary 类 包含 了 一 个 由 单词 聚 类 中 心 VOC 与 每 个 单词 对 应 的 逆 同 文档 频率 构成 
的 问 量 ， 为 了 在 某 些 图 像 集 上 训练 词汇 ，train() 方法 获取 包含 有 .sift 描 后 级 的 述 
子 文 件 列 表 和 词汇 单词 数 k。 Æ K-means 聚 类 阶段 可 以 对 训练 数据 下 采样 ， 因 为 如 
果 使 用 过 多 特征 ， 会 耗费 很 长 时 间 。 

现在 在 你 计算 机 的 某 个 文件 夹 中 ,保存 了 图 像 及 提取 出 来 的 sift 特征 文件 ， 下 面 的 
代码 会 创建 一 个 长 为 k= 1000 的 词汇 表 。 这 里 ， 再 次 假设 imlist 征 一 个 包含 了 图 
像 文 件 名 的 列表 : 





import pickle 
import vocabulary 


nbr_images = len(imlist) 
featlist = | imlist[i][:-3]+'sift' for i in range(nbr_ images) | 


voc = vocabulary.Vocabulary('ukbenchtest' ) 
voc.train(featlist,1000, 10) 


# 保存 词汇 

with open('vocabulary.pkl', 'wb') as f: 
pickle.dump(voc, f) 

print ‘vocabulary is:', voc.name, voc.nbr words 


代码 最 后 部 分 用 pickle 模块 保存 了 整个 词汇 对 象 以 便 后 面 使 用 。 
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7.3 图像 索 引 


在 开始 搜索 之 前 ， 我 们 需要 建立 图 像 数 据 库 和 图 像 的 视觉 单词 表示 。 





7.3.1 建立 数据 库 

在 索引 图 像 前 ， 我 们 需要 建立 一 个 数据 库 。 这 里 ， 对 图 像 进行 索引 就 是 从 这 些 图 像 中 
提取 摘 述 子 ， 利 用 词汇 将 摘 述 子 转换 成 视觉 单词 ， 并 保存 视觉 单词 及 对 应 网 像 的 单词 
直方 图 。 从 而 可 以 利用 图 像 对 数据 库 进 行 查询 ， 并 返回 相似 的 图 像 作为 搜索 结果 。 


这 里 ， 我 们 使 用 SQLite 作为 数据 库 。SQLite 将 所 有 信息 都 保存 到 一 个 文件 ， 是 
一 个 易于 安 痊 和 使 用 的 数据 库 。 由 于 不 涉及 数据 库 和 服务 如 的 配置 及 其 他 超出 本 
书 范围 的 细节 ， 它 很 容易 上 手 。SQLite 对 应 的 Python 版 本 是 pysqlite， 可 以 从 
http://code.google.com/p/pysqlite/ 获取 ， 或 在 Mac 和 Linux 系统 中 通过 软件 源 获 取 。 
SQLite 使 用 SQL 查询 语言 ， 所 以 如 果 想 用 别 的 数据 库 ， 这 个 转换 过 程 非常 简单 。 


在 开始 之 前 ， 我 们 需要 创建 表 、 索 引 和 索引 器 Indexer 类 ， 以 便 将 图 像 数 据 写 入 数 
据 库 。 首 先 ， 创 建 一 个 名 为 imagesearch.py 的 文件 ， 将 下 面 的 代码 添加 进去 : 








import pickle 
from pysqlite2 import dbapi2 as sqlite 


class Indexer(object): 


def init (self,db,voc): 
""" 初始 化 数据 库 的 名 称 及 词汇 对 象 “"， 


self.con = sqlite.connect (db) 
self.voc = voc 


def del (self): 
self.con.close() 


def db commit(self): 
self.con.commit() 


首先 ， 我 们 需要 用 pickle 模块 将 这 些 数 组 编码 成 字符 串 以 及 将 字符 串 进 行 解码 ， 
SQLite 可 以 从 pysqlite2 模块 中 导入 (安装 细 市 参见 附录 A). Indexer 类 连接 数据 
库 ， 并 且 一 旦 创建 (调用 init () 方 法 ) 后 就 可 以 保存 词汇 对 象 。_del () 方 法 
可 以 确保 关闭 数据 库 连 接 ，db commit() 可 以 将 更 改写 入 数据 库 文件 。 


我 们 仅 需 一 个 包含 三 个 表单 的 简单 数据 库 模 式 。 表 单 imlist 包含 所 有 要 索引 的 图 像 
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文件 名 ; imwords 包含 了 一 个 那些 单词 的 单词 索引 、 用 到 了 哪个 词汇 、 以 及 单词 出 现 
在 哪些 图 像 中 ;， Hela, imhistograms 包含 了 全 部 每 幅 图 像 的 单词 直方 图 。 根 据 矢 量 
空间 模型 ， 我 们 需要 这 些 以 便 进行 图 像 比 较 。 表 7-1 展示 了 该 模式 。 


表 7-1: 一 个 用 于 存储 图 像 及 视觉 单词 的 简单 数据 库 模式 





imlist imwords imhistograms 

rowid imid imid 

filename wordid histogram 
vocname vocname 


下 面 Indexer 类 中 的 方法 用 于 创建 表单 及 一 些 有 用 的 索引 以 加 快 搜索 速度 : 


def create tables(self): 
e 创建 数据 库 表单 


self.con.execute('create table imlist(filename)') 
self.con.execute('create table imwords(imid,wordid, vocname) ' ) 
self.con.execute('create table imhistograms(imid, histogram, vocname)' ) 
self.con.execute('create index im idx on imlist(filename) ') 
self.con.execute('create index wordid idx on imwords(wordid)' ) 
self.con.execute('create index imid idx on imwords(imid)' ) 
self.con.execute('create index imidhist idx on imhistograms(imid) ') 
self.db commit () 


7.3.2 ”添加 图 像 
有 了 数据 库 表 单 ， 我 们 便 可 以 在 索引 中 添加 图 像 。 为 了 实现 该 功能 ， 我 们 需要 在 
Indexer 类 中 添加 add to index() 方法 。 将 下 面 的 方法 添加 到 imagesearch.py H : 


def add to index(self,imname,descr): 


""" 获取 一 幅 带 有 特征 描述 子 的 图 像 ， 投 影 到 词汇 上 并 添加 进 数 据 库 """ 


if self.is indexed(imname): return 
print ‘indexing’, imname 


# 获取 图 像 id 


imid = self.get id(imname ) 


# 获取 单词 
imwords = self.voc.project(descr) 
nbr words = imwords.shape|0| 


# 将 每 个 单词 与 图 像 链接 起 来 


for i in range(nbr words): 
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word = imwords[i] 
# wordid 就 是 单词 本 身 的 数字 


self.con.execute("insert into imwords(imid,wordid, vocname) 





values (?,?,?)", (imid,word,self.voc.name) ) 


# 存储 图 像 的 单词 直方 图 

# 用 pickle 模块 将 NumPy 数组 编码 成 字符 串 

self.con.execute("insert into imhistograms(imid, histogram, vocname) 
values (?,?,?)", (imid, pickle. dumps(imwords),self.voc.name) ) 


该 方法 获取 图 像 文 件 名 与 Numpy 数组 ， 该 数组 包含 的 是 在 图 像 找 到 的 摘 述 子 。 这 些 
摘 述 子 投影 到 词汇 上 ， 并 插入 到 imwords (F) 和 imhistograms 表单 中 。 我 们 使 用 
两 个 辅助 国 数 : is_indxed() 用 来 检查 图 像 是 否 已 经 被 索 3|，get _id() 则 对 一 幅 图 像 
文件 名 给 定 id 号 。 将 下 面 的 代码 添加 进 imagesearch.py: 


def is indexed(self,imname): 


""" 如 果 图 像 名 字 (imame) 被 索引 到 ， 就 返回 True""" 


im = self.con.execute("select rowid from imlist where 
filename='%s'" % imname).fetchone() 
return im != None 


def get_id(self,imname): 
e" 获取 图 像 4， 如果 不 存在 ， 就 进行 添加 """ 


cur = self.con.execute( 
"select rowid from imlist where filename='%s'" % imname) 
res=cur. fetchone() 
if res==None: 
cur = self.con.execute( 
"insert into imlist(filename) values ('%s')" % imname) 
return cur.lastrowid 
else: 
return res[0| 


你 是 否 广 意 到 我 们 在 add_to_index() 方法 中 用 到 了 Pickle 模块 ”由 于 SQLite 的 数据 
库 在 存储 对 象 或 数组 时 并 没有 一 个 标准 类 型 。 所 以 ， 我 们 用 Pickle 的 dumps() 函数 
创建 一 个 字符 串 表 示 ， 并 将 其 写 入 数据 库 。 因 此 ， 从 数据 库 读 取 数 据 时 ， 我 们 需 
拆 封 该 字符 串 ， 这 在 下 一 节 有 详细 介绍 。 


下 面 的 示例 代码 会 志 历 整个 ukbench 数据 库 中 的 样本 图 像 ， 并 将 其 加 入 我 们 的 索 
引 。 这 里 ， 假 设 列 表 imlist 和 featlist 7 BAA Z Al A RICE AR A RHI 
vocabulary.pkl 包含 已 经 训练 好 的 词汇 : 








| 人 大 大 
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import pickle 
import sift 
import imagesearch 


nbr_images = len(imlist) 


# 载 入 词汇 
with open('vocabulary.pkl', 'rb') as f: 
voc = pickle.load(f) 


# GSR S| ae 
indx = imagesearch. Indexer('test.db', voc) 
indx.create tables() 


E i DET Ae, KAHER BIL EFAS 0B 5 |p 

for i in range(nbr_images)[:1000]: 
locs,descr = sift.read features from file(featlist[i]) 
indx.add_to_index(imlist[i],descr) 


# 提交 到 数据 库 


indx.db_commit() 


现在 我 们 可 以 检查 数据 库 中 的 内 容 了 : 


from pysqlite2 import dbapi2 as sqlite 

con = sqlite.connect('test.db' ) 

print con.execute('select count (filename) from imlist').fetchone() 
print con.execute('select * from imlist').fetchone() 


控制 人 台 打 印 结 采 如 下 : 


(1000, ) 
(u'ukbenchooooo. jpg", ) 


如 果 你 在 最 后 一 行 用 fetchall() ÆR fetchone()， 会 得 到 一 个 包含 所 有 文件 名 的 
长 列表 。 


7.4 在 数据 库 中 搜索 图 像 


建立 好 图 像 的 索引 ， 我 们 就 可 以 在 数据 库 中 搜索 相似 的 图 像 了 。 这 里 ， 我 们 用 Bow 
(Bag-of Word， 词 袋 模型 ) 来 表示 整个 图 像 ， 不 过 这 里 介绍 的 过 程 是 通用 的 ， 可 以 应 用 
于 寻找 相似 的 物体 、 相 似 的 脸 、 相 似 的 颜色 等 ， 它 完全 取决 于 图 像 及 所 用 的 描述 子 。 


为 实现 搜索 ， 我 们 在 imagesearch.py 中 添加 Searcher #: 
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class Searcher(object): 


def init (self,db,voc): 
""" 初始 化 数据 库 的 名 称 """ 
self.con = sqlite.connect (db) 
self.voc = voc 


def del (self): 
self.con.close() 


一 个 新 的 Searcher 对 象 连 接 到 数据 库 ， 一 旦 删除 便 关 闭 连 接 ， 这 与 之 前 的 Indexer 
类 中 的 处 理 过 程 相 同 。 


如 果 图 像 数 据 库 很 大 ， 逐 一 比较 整个 数据 库 中 的 所 有 直方 图 往往 是 不 可 行 的 。 我 们 
需要 找到 一 个 大 小 合理 的 候选 集 (这 里 的 “合理 ”是 通过 搜索 响应 时 间 、 所 需 内 存 
等 确定 的 ) ， 单 词 索引 的 作用 便 在 于 此 : 我 们 可 以 利用 单词 索引 获得 候选 集 ， 然 后 只 
需 在 候选 集 上 进行 逐一 比较 。 


7.4.1 利用 索引 获取 候选 图 像 
我 们 可 以 利用 建立 起 来 的 索引 找到 包含 特定 单词 的 所 有 图 像 ， 这 不 过 是 对 数据 库 做 
一 次 简单 的 查询 。 在 Searcher 类 中 加 入 candidates from word() 方法 : 


def candidates from word(self,imword): 


e G 获取 包含 imword 的 图 像 列 表 """ 


im ids = self.con.execute( 
"select distinct imid from imwords where wordid=%d" % imword).fetchall() 

return [i[0] for i in im ids] 
上 面 会 给 出 包含 特定 单词 的 所 有 图 像 id 号。 为 了 获得 包含 多 个 单词 的 候选 图 像 ， 例 
如 一 个 单词 直方 图 中 的 全 部 非 零 元 素 ， 我 们 在 每 个 单词 上 进行 过 历 ， 得 到 包含 该 单 
词 的 图 像 ， 并 合并 这 些 列表 。 这 里 ， 我 们 仍然 需要 在 合并 了 的 列表 中 对 每 一 个 图 像 
id 出 现 的 次 数 进行 跟踪 ， 因 为 这 可 以 显示 有 多 少 单词 与 单词 直方 图 中 的 单词 匹配 。 
该 过 程 可 以 通过 下 面 的 candidates from histogram 方法 完成 : 





def candidates from histogram(self,imwords): 


ee 获取 具有 相似 单词 的 图 像 列表 """ 


# 获取 单词 id 


words = imwords.nonzero()[0| 


注 1， 如果 不 想 使 用 所 有 单词 ， 你 可 以 根据 其 倒 排 文档 频率 权重 进行 排序 ， 并 使 用 那些 权重 最 高 的 单词 。 
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# 寻找 候选 图 像 

candidates = [| 

for word in words: 
c = self.candidates from word(word) 
candidates+=c 


# 获取 所 有 唯一 的 单词 ， 并 按 出 现 次 数 反 回 排 序 

tmp = [(w,candidates.count(w)) for w in set(candidates) | 
tmp.sort(cmp=lambda x,y:cmp(x[1],y[1])) 

tmp.reverse() 





# 返回 排序 后 的 列表 ， 最 匹配 的 排 在 最 前 面 


return [w[0] for w in tmp] 


AEM ARE el BO SE ES ll SE id 列表 ， 检 索 每 个 单词 获得 候选 集 并 将 
其 合并 到 candidates 列表 中 ， 然 后 创建 一 个 元 组 列表 每 个 元 组 由 单词 id 和 次 数 count 
构成 ， 基 中 次 数 count 是 候选 列表 中 每 个 单词 出 现 的 次 数 。 同 时 ， 我 们 还 以 元 组 中 的 
第 二 个 元 素 为 准 ， 用 sort() 方法 和 一 个 自 定义 的 比较 函数 对 列表 进行 排序 〈 考 虑 到 后 
面 的 效率 )。 该 自 定义 比较 函数 进行 用 lambda 函数 内 联 声明 ， 对 于 单行 函数 声明 ， 使 
用 lambda 函数 非常 方便 。 最 后 结果 返回 一 个 包含 图 像 id 的 列表 ， 排 在 列表 最 前 面 的 
是 最 好 的 匹配 图 像 。 


思 芳 下 面 的 例子 : 








src = imagesearch.Searcher('test.db', voc) 
locs,descr = sift.read features from file(featlist[0o]) 
iw = voc.project (descr) 


print ‘ask using a histogram...’ 
print src.candidates from histogram(iw)[:10] 


该 例 打 印 了 从 索引 中 查找 出 的 前 10 AE id, RUT (该 结 末 根 据 你 使 用 的 词 
汇 有 上 所 不 同 ) : 


ask using a histogram... 
[6555 6565.0545.-44) 95.6535 AZ, Ass Aly 12 


查找 出 来 的 前 10 MRE ARR ABE A EE. PHAD, REER i I A 
(ERICH IR ENN EAE. MASAFI, AT AK Te ei as OE 


7.4.2 用 一 幅 图 像 进行 查询 


利用 一 幅 图 像 进行 查询 时 ， 没 有 必要 进行 完全 的 搜索 。 为 了 比较 单词 直方 图 ，Searcher 
类 需要 从 数据 库 读 入 图 像 的 单词 直方 图 。 将 下 面 的 方法 添加 到 Searcher 类 中 : 
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def get_imhistogram(self, imname) : 


“返回 一 幅 图 像 的 单词 直方 图 """ 


im id = self.con.execute( 
"select rowid from imlist where filename='%s'" 
s = self.con.execute( 


% imname).fetchone() 


"select histogram from imhistograms where rowid='%d'" % im id).fetchone() 


# 用 pickle 模块 从 字符 串 解码 Numpy 数组 
return pickle.loads(str(s[0])) 


这 里 ， 为 了 在 字符 串 和 NumPy 数组 间 进 行 转换 ， 我 们 再 次 用 到 了 pickle 模块 ， 这 次 


使 用 的 是 1oads()。 
现在 ， 我 们 可 以 全 部 合并 到 查询 方法 中 : 


def query(self,imname): 


"查找 所 有 与 imname 匹配 的 图 像 列表 """ 


h = self.get imhistogram(imname) 
candidates = self.candidates from histogram(h) 


matchscores = |] 
for imid in candidates: 
# 获取 名 字 


cand name = self.con.execute( 


"select filename from imlist where rowid=%d" % imid).fetchone() 


cand h = self.get_imhistogram(cand_name) 


cand dist = sqrt( sum(self.voc.idf* (h-cand h)2 ) ) # 用 L2 距离 度量 相似 性 


matchscores.append( (cand dist,imid) ) 


# 返回 排序 后 的 距离 及 对 应 数据 库 ids 列表 
matchscores.sort() 
return matchscores 


该 query() 方法 獒 取 图 像 的 文件 名 ， 检 索 其 单词 直方 图 及 候选 图 像 列 表 (如 末 你 的 


数据 集 很 大 ， 候 选集 的 大 小 应 该 限制 在 某 个 最 大 值 )。 
准 的 欧式 距离 比较 它 和 查询 图 像 间 的 直方 图 ， 并 返 
id 的 元 组 列表 。 


我 们 尝试 对 前 一 廊 的 图 像 进 行 查询 : 
src = imagesearch.Searcher('test.db', voc) 


print ‘try a query... ' 
print src.query(imlist[o])[:10] 


对 于 每 个 候选 图 像 ， 我 们 用 标 
回 一 个 经 排序 的 包含 距离 及 图 像 
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这 会 再 次 打印 前 10 个 结果 ， 包 括 候 选 图像 与 查询 图 像 旧 的 距离 ， 结 果 应 该 和 下 面 
ZEA : 

ELV as Query sc 

[(0.0, 1), (100.03999200319841, 2), (105.45141061171255, 3), (129.47200469599596, 708), 


(129.73819792181484, 707), (132.68006632497588, 4), (139.89639023220005, 10), 
(142.31654858097141, 706), (148.1924424523734, 716), (148.22955170950223, 663) | 


这 次 结 来 比 前 一 市 中 打印 出 来 的 10 个 结 东 要 好 很 多 。 距 离 为 0 的 图 像 对 应 查询 图 像 
A; 三 幅 与 得 询 图 像 具 有 相同 场景 的 图 像 有 两 幅 在 除 碍 询 图 像 本 遇 外 的 前 两 个 位 
置 ， 第 三 幅 则 出 现在 第 五 个 位 置 。 


7.4.3 ”确定 对 比 基 准 并 绘制 结果 

为 了 评价 搜索 结果 的 好 坏 ， 我 们 可 以 计算 前 4 个 位 置 中 搜索 到 相似 图 像 数 。 这 是 在 
ukbench 图 像 集 上 评价 搜索 性 能 常 采用 的 评价 方式 。 这 里 给 出 了 计算 分 数 的 函数 ， 
将 它 添加 到 imagesearch.py 中 ， 你 就 可 以 开始 优化 查询 了 : 


def compute _ukbench score(src,imlist): 


""" 对 查询 返回 的 前 4 个 结 末 计算 平均 相似 图 像 数 ， 并 返回 结 来 "”" 





nbr_images = len(imlist) 

pos = zeros((nbr_images, 4) ) 

# 获取 每 幅 查 询 图 像 的 前 4 PERS 
for i in range(nbr_images): 





pos[i] = [w[1]-1 for w in src.query(imlist[i])[:4]] 


# 计算 分 数 ， 并 返回 平均 分 数 
score = array([ (pos[i]//4)==(i//4) for i in range(nbr images)|)*1.0 
return sum(score) / (nbr images) 


ABBR TAR RAI A 4 PEAS, FE query 返回 的 索 ?| 减 去 1， 因 为 数据 库 索 引 征 从 
1 开始 的 ， 而 图 像 列表 的 索引 | 古 从 0 开始 的 。 然 后 ， 利 用 每 4 幅 图 像 为 一 组 时 相似 
图 像 文 件 名 是 连续 的 这 一 事实 ， 我们 用 整数 相 除 计算 得 到 最 终 的 分 数 。 分 数 为 4 时 
结 末了 好 理想 ， 没 有 一 个 是 准确 的 ,分 数 为 0; 仅 检索 到 相同 图 像 时 ， 分 数 为 1， 找到 
相同 的 图 像 并 且 其 他 三 个 中 的 两 个 相同 时 ， 分数 为 3。 


IA PAE TCS : 
imagesearch.compute_ukbench score(src, imlist) 


进行 1000 次 查询 需要 耗费 较 长 时 间 ， 如 琳 你 不 想 等 太 和 信 ， 可 以 将 查询 集 改 为 上 面 查 
WRITE: 
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imagesearch.compute_ukbench_ score(src, imlist[:100] ) 


当 得 到 的 分 数 接近 3 时， 我 们 可 以 认为 结 采 很 好 。 目 前 ，ukbench 网 站 给 出 的 最 好 
结 未 刚刚 超过 3， 不 过 需要 注意 的 征 ， 他 们 用 了 更 多 的 图 像 ， 所 以 在 大 数据 集 上 ， 
你 在 上 面 所 得 到 的 分 数 会 下 降 。 


最 后 ， 用 于 显示 实际 搜索 结果 的 函数 十 分 有 有用。 添加 该 函数 到 imagesearch.py 中 : 





def plot results(src,res): 


nun 显示 在 列表 res 中 的 图 像 """ 


figure() 

nbr results = len(res) 

for i in range(nbr results): 
imname = src.get_filename(res[i]) 
subplot(1,nbr_results,i+1) 
imshow(array (Image.open(imname) ) ) 
axis('off') 

show( ) 


对 于 列表 res PIER RAE, ATA Awe. AFAT : 


nbr results = 6 
res = [w[1] for w in src.query(imlist[0])[:nbr results ] |] 
imagesearch.plot_results(src, res) 


定义 辅助 函数 : 


def get filename(self,imid): 
""" 返回 图 像 id 对 应 的 文件 名 """ 


s = self.con.execute( 
"select filename from imlist where rowid='%d'" % imid).fetchone() 
return s[0| 


它 可 以 将 图 像 的 id 转换 为 图 像 文 件 名 ， 以 便 在 显示 搜索 结 朱 时 载 入 图像。 图 7-2 显 
示 了 用 plot_results() 在 我 们 的 数据 集 上 进行 的 一 些 查询 实例 。 


7.5 ”使 用 几何 特性 对 结果 排序 


让 我 们 简要 地 看 一 种 用 Bow $e AY Oc WER RE AY Hh ATK. Bow 模型 的 一 个 主要 
缺点 是 在 用 视觉 单词 表示 图 像 时 不 包含 图 像 特征 的 位 置信 息 ， 这 是 为 获取 速度 和 可 
伸缩 性 而 付出 的 代价 。 
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7-2: 在 ukbench 数据 集 上 用 一 些 查 询 图 像 进行 搜索 给 出 的 一 些 结果 。 查 询 图 像 在 最 左边 ， 
后 面 是 检索 到 的 前 5 幅 图 像 


利用 一 些 考 虑 到 特征 几何 关系 的 准则 重 排 搜索 到 的 笔 前 结 永 ， 可 以 捉 高 准确 率 。 了 节 
前 用 的 方法 站 在 碍 询 图 像 与 靠 前 图 像 的 特征 位 置 间 拟 合 单 应 性 。 

为 了 提高 效率 ， 可 以 将 特征 位 置 存 储 在 数据 库 中 ， 并 由 特征 的 单词 id 决定 它们 之 间 
的 关联 (要 注意 的 是 ， 只 有 在 词汇 足够 大 ， 使 单词 id 包含 很 多 准确 匹配 时 ， 它 才 起 
作用 )。 然 而 ， 这 需要 大 幅 重 写 我 们 上 和 面 的 数据 库 和 代码 ， 并 复杂 化 表示 形式 。 为 了 
进行 说 明 ， 我 们 仅 重 载 乱 前 图 像 的 特征 ， 并 对 它们 进行 匹配 。 


下 面 是 一 个 载 入 所 有 模型 文件 并 用 单 应 性 对 靠 前 的 图 像 进 行 重 排 的 完整 例子 : 





import pickle 
import sift 

import imagesearch 
import homography 


# 载 人 图 像 列 表 和 词汇 
with open('ukbench_ imlist.pkl','rb') as f: 
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imlist = pickle.load(f) 
featlist = pickle. load(f) 


nbr_images = len(imlist) 
with open('vocabulary.pkl', 'rb') as f: 


voc = pickle. load(f) 


src = imagesearch.Searcher('test.db' ,voc) 





# EWER |S AT I) ER a AB 
q_ind = 50 
nbr_ results = 20 


# MAW 
res reg = [w[1] for w in src.query(imlist[q indj)[:nbr results] |] 
print “top matches (regular):', res reg 


# 载 入 碍 询 图 像 特 征 
g_locs,q_descr = sift.read features from file(featlist|q_ind]) 
fp = homography.make_homog(q_locs[:,:2].T) 


# 用 RANSAC 模型 拟 合 单 应 性 
model = homography.RansacModel() 


rank = {} 
# 载 和 人 搜索 结 采 的 图 像 特征 
for ndx in res reg[1:]: 
locs,descr = sift.read features from file(featlist[ndx]) 


# 获取 匹配 数 

matches = sift.match(q descr,descr) 

ind = matches.nonzero()[0] 

ind2 = matches| ind] 

tp = homography.make_homog(locs[:,:2].T) 


# 计算 单 应 性 ， 对 内 点 计数 。 如 采 没 有 足够 的 匹配 数 则 返回 空 列 表 
try: 


H,inliers = homography.H from ransac(fp[:,ind],tp[:,ind2],model,match theshold=4) 


except: 
inliers = [] 


# 存储 内 点 数 


rank[ndx] = len(inliers) 








# 将 字典 排序 ， 以 首先 获取 最 内 层 的 内 点 数 

sorted rank = sorted(rank.items(), key=lambda t: t[1], reverse=True) 
res geom = [res reg[O]]+[s[0] for s in sorted rank] 

print ‘top matches (homography):', res geom 


# 显示 徘 前 的 搜索 结果 
imagesearch.plot results(src,res Teg[ :8]) 
imagesearch.plot_results(src,res_geom|[ :8]) 


首先 ， 载 入 图 像 列 表 、 特 征 列 表 〈 分 别 包 含 图 像 文件 名 和 SIFT 特征 文件 ) 及 词汇 。 
然后 ， 创 建 一 个 Searcher 对 象 ， 执 行 定 期 查询 ， 并 将 结 末 保存 在 res reg 列表 中 。 然 
后 载 入 res_ reg 列表 中 每 一 幅 图 像 的 特征 ， 并 和 查询 图 像 进行 匹配 。 单 应 性 通过 计算 
匹配 数 和 计数 内 点 数 得 到 。 最 终 ， 我 们 可 以 通过 减少 内 点 的 数 日 对 包含 图 像 索 引 和 内 
点 数 的 字典 进行 排序 。 打 印 搜索 结果 列表 到 控制 台 ， 并 可 视 化 检索 徘 前 的 图 像 。 


输出 结果 如 下 : 


top matches (regular): [39, 22, 74, 82, 50, 37, 38, 17, 29, 68, 52, 91, 15, 90, 31, ... | 
top matches (homography): [39, 38, 37, 45, 67, 68, 74, 82, 15, 17, 50, 52, 85, 22, 87, ... | 


图 7-3 25H T LAS Vea AT is ad ST HAE i I EEE BER o 











7-3: 基 于 几何 一 致 性 用 单 应 性 对 搜索 结果 进行 重 排 后 一 些 实例 搜索 结果 。 在 每 一 个 例子 中 ， 
上 一 行 是 没有 剃 规 查 询 的 结果 ， 下 一 行 是 重 排 后 的 结果 
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7.6 ”建立 演示 程序 及 Web 应 用 


作为 本 革 关 于 图 像 搜 索 的 最 后 一 三 ， 我 们 看 一 个 用 Python 建立 演示 程序 和 Web 应 
用 的 简单 方法 。 通 过 将 演示 程序 变 成 Web 页 ， 你 便 自 动 获 得 了 跨 平 台 支 持 ， 并 以 
最 低 环 境 配置 需求 展示 、 分 享 你 项 目 。 我 们 在 本 菠 会 完整 给 出 一 个 创建 简单 图 像 搜 
索引 擎 的 示例 。 


7.6.1 用 CherryPy 创 建 Web 应 用 


为 了 建立 这 些 演 示 程 序 ， 我 们 将 采用 CherryPy 包 ， 参 见 http://www.cherrypy.org。 
CherryPy 是 一 个 纯 Python 轻 量 级 Web Ak as, TEH EAX Be fe BY. CherryPy 的 
安装 和 配置 细 市 参见 附录 A。 这 里 假设 你 已 经 学 习 了 CherryPy 实例 教程 ， 并 对 
CherryPy 的 工作 方式 有 了 初步 的 了 解 ， 我 们 可 以 以 本 章 创 建 的 图 像 Searcher 类 为 基 
础 ， 来 创建 一 个 图 像 搜 索 Web 演示 程序 。 





7.6.2 图像 搜索 演示 程序 

首先 ， 我 们 需要 用 一 些 HTML 标签 进行 初始 化 ， 并 用 Pickle 载 和 人 数据 。 另 外， 还 需 
要 有 与 数据 库 进 行 交 互 的 Searcher 对 象 词汇 。 创 建 一 个 名 为 searchdemo.py 的 文件 ， 
并 添加 下 面具 有 两 个 方法 的 Search Demo 类 : 








import cherrypy, os, urllib, pickle 
import imagesearch 


class SearchDemo(object) : 


def init (self): 
E 载 和 人 图像 列 表 
with open('webimlist.txt') as f: 
self.imlist = f.readlines() 


self.nbr_ images = len(self.imlist) 
self.ndx = range(self.nbr_images) 


# 载 入 词汇 
with open('vocabulary.pkl', 'rb') as f: 
self.voc = pickle. load(f) 


# 设置 可 以 显示 多 少 幅 图 像 


self.maxres = 15 


# html 的 头 部 和 尾部 
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self.header = 
<!doctype html> 
<head> 
<title>Image search example</title> 
</head> 
<body> 


self.footer = 
</body> 
</html> 


def index(self,query=None): 
self.src = imagesearch.Searcher('web.db',self.voc) 


html = self.header 

html += """ 
<br /> 
Click an image to search. <a href='?query='>Random selection</a> of images. 
<br /><br /> 

if query: 

# 查询 数据 库 并 获取 靠 前 的 图 像 

res = self.src.query(query)|:self.maxres | 

for dist,ndx in res: 
imname = self.src.get_filename(ndx) 


html += "<a href=" ?query="+imname+" ' > 


html += "<img src='"+imname+"' width='100' />" 
html += "</a>" 
else: 
# 如 采 没 有 碍 询 图 像 ， 则 显示 随机 选择 的 图 像 
random. shuffle(self.ndx) 
for i in self.ndx|:self.maxres |: 
imname = self.imlist[i] 


html += "<a href=" ?query="+imname+" ' > 


html += "<img src='"+imname+"' width='100' />" 


html += "</a>" 


html += self.footer 
return html 


index.exposed = True 


cherrypy.quickstart(SearchDemo(), '/', 
config=os.path.join(os.path.dirname( file ), ‘service.cont')) 


你 可 以 看 到 ， 这 个 简单 的 演示 程序 包含 了 单个 类 ， 该 类 包含 一 个 初始 化 _int_() 方 
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法 和 一 个 “索引 ”页 面 index) 方法 (本 例 中 只 有 一 个 页 面 )。 这 两 个 方法 可 以 自动 
地 映射 至 URL， 并 且 方 法 中 的 参数 可 以 直接 传递 到 URL 中 。index 方法 里 有 一 个 查 
询 参数 ， 在 本 例 中 ， 该 参数 是 查询 图 像 ， 用 来 对 其 他 图 像 排序 。 如 采 该 参数 是 空 的 ， 
就 会 随机 显示 一 些 图 像 。 


index.exposed = True 


这 一 行使 索引 URL 可 以 被 访问 ， 上 面 searchsemo.py 中 紧 接 着 该 行 的 最 后 一 行 通 过 
读 取 service.conf 配置 文件 开启 CherryPy Web 服务 器 。 在 这 个 例子 中 ， 我 们 的 配置 
文件 如 下 : 


[global | 

server.socket_ host = "127.0.0.1" 
server.socket_ port = 8080 
server.thread pool = 50 
tools.sessions.on = True 


[/] 

tools.staticdir.root = "“tmp/" 
tools.staticdir.on = True 
tools.staticdir.dir = "" 





第 一 部 分 指定 使 用 的 IP 地 址 和 端口 ， 第 二 部 分 确保 本 地 文件 夹 可 以 读 取 〈 本 例 中 文 
件 夹 为 tmp/)， 注 意 文 件 夹 下 存放 的 是 你 的 图 像 库 。 








如 采 你 打算 将 它 展示 给 别人 看 ， 不 要 在 这 个 文件 夹 下 存放 任何 秘密 的 东西 ， 
a 因为 文件 夹 下 所 有 的 内 容 都 可 以 通过 CherryPy 访问 。 





从 命令 行 开 启 你 的 Web 服务 器 : 
$ python searchdemo.py 


打开 浏览 器 ， 在 地 址 栏 输入 http://127.0.0.1:8080/， 你 可 以 看 到 随机 挑选 出 来 的 图 像 
的 初始 页 面 ， 类 似 于 图 7-4 中 的 上 图 所 示 。 点 击 一 幅 图 像 进 行 查询 ， 会 显示 出 搜索 
出 来 的 前 儿 幅 图 像 ， 在 搜索 出 来 的 图 像 中 单 击 某 图 像 可 以 开始 新 的 查询 。 此 外 ， 页 
面 上 有 一 个 链接 ， 点 击 后 可 以 返回 原来 随机 选择 的 状态 (通过 一 个 空 查询 )。 图 7-4 


古 一 些 查 询 示 例 。 

该 例子 完整 展示 了 从 Web 页 面 到 数据 库 碍 询 以 及 结 东 显示 你 个 综合 过 程 。 当 然 ， 这 
只 是 一 个 基本 的 原型 ， 并 且 你 可 以 在 该 基础 上 进行 改进 ， 例 如 添加 样式 表 使 它 更 漂 
se, 或 使 它 能 够 上 传 图 像 进行 查询 。 
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Image search example 


> 有 + wi http://localhost:8080/7query= © | (Q7 Google 





Click an image to search. Random selection of images. 





Image search example BOE Image search example 


a|» + í http://localhost:8080/7query=ukben © | (Q7 Google a> + «í http: //localhost:8080/?query=ukben: © | (Q7 Google 





Click an image to search. Random selection of images. Click an image to search. Random selection of images. 





图 7-4: 在 ukbench 数据 集 上 进行 搜索 的 示例 。 上 方 是 开始 页 面 ， 显 示 了 一 些 随机 选择 的 图 
Z: 下方 是 一 些 得 询 示例 。 左 上 角 是 查询 图 像 ， 书 后 的 是 搜索 到 的 一 些 结果 靠 前 的 图 像 


练习 


(1) 尝试 只 用 查询 图 像 中 的 部 分 单词 构建 候选 图 像 列 表 来 加 速 查询 ， 用 idf 权重 作为 
准则 来 挑选 单词 。 

(2) 在 你 的 词汇 中 ， 比 如 前 10%， 实 现 一 个 最 第 用 的 视 完 单词 停 用 词 列表 ， 在 搜索 
的 时 候 名 略 这 些 单词 ， 看 看 搜索 结果 有 何 改 善 ? 

(3) 通过 保存 所 有 了 映射 到 一 个 给 定单 词 id 的 所 有 图 像 特征 ， 对 视觉 单词 进行 可 视 化 。 
在 给 定 的 尺度 下 ， 在 特征 位 置 环绕 处 剪 切 图 像 块 ， 并 将 它们 画 在 同一 图 形 窗口 
中 。 对 于 给 定 的 单词 ， 这 些 图 像 块 看 起 来 一 样 吗 ? 

(4) 在 query() 方法 中 ， 用 不 同 的 距离 度量 及 加 权 进 行 实验 ， 用 compute ukbench_ 
score() 计算 得 出 的 分 数 度量 你 的 改进 是 否 有 效 。 

(5) 在 整个 章节 中 ， 我 们 的 词汇 仅 用 到 了 SIFT 特征 ， 正 如 你 在 图 7-2 中 看 到 的 结 
采 ， 它 完全 抛弃 了 颜色 信息 。 试 着 添加 颜色 描述 符 看 你 是 否 能 够 改进 搜索 的 
结 东 。 

(6) 对 于 大 量词 汇 ， 用 数组 来 表示 视 贫 单词 词 频 效率 很 低 ， 原 因 在 于 数组 中 很 多 元 素 
都 是 0〈 比 如 考虑 这 样 一 种 情形 ， 有 数 十 万 单词 ， 而 图 像 却 只 有 1000 个 特征 )。 
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— FA rel ABI AP ER SSCA Ds HE re PEE EA Fi Ze, MA HE SL ES FR 
Te HER ZA, FETE AE SCH PEE AS IN EBT IE. MEA A PETE, PR 
可 以 采用 scipy.sparse 模块 。 

(7) 你 如 末 增 加 词汇 的 大 小 ， 聚 类 时 间 也 会 相应 增长 ， 并 且 特 征 投影 到 单词 的 过 程 更 
加 缓慢 。 用 层次 K-means 聚 类 算法 实现 一 个 层次 词汇 ， 看 它 是 怎样 提高 可 伸缩 
性 的 ， 详 情 参 阅 文献 [23]. 
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图 像 内 容 分 类 








本 半 介 绍 图 像 分 类 和 图 像 内 容 分 类 算法 。 首 和 完 ， 我 们 介绍 一 些 人 简单 而 有 效 的 方法 和 
目前 一 些 性 能 最 好 的 分 类 如 ， 并 运用 它们 解决 两 类 和 多 类 分 类 问题 ， 最 后 展示 两 个 
用 于 手势 识别 和 目标 识别 的 应 用 实例 。 


8.1 上 邻近 分 类 法 (KNN) 


在 分 类 方法 中 ， 最 简单 且 用 得 最 多 的 一 种 方法 之 一 就 是 KNN (K-Nearest Neighbor ,K 
邻近 分 类 法 )， 这 种 算法 把 要 分 类 的 对 象 〈 例 如 一 个 特征 向 量 ) 与 训练 集中 已 知 类 标 
记 的 所 有 对 象 进行 对 比 ， 并 由 近邻 对 指派 到 哪个 类 进行 投票 。 这 种 方法 通常 分 类 效 
有 果 较 好 ， 但 是 也 有 很 多 弊端 : 与 K-means 肾 类 算法 一 样 ， 需 要 预先 设 定 x 值 ，k 值 的 
选择 会 影响 分 类 的 性 能 ， 此 外 ， 这 种 方法 要 求 将 整个 训练 集 存储 起 来 ， 如 果 训 练 集 
非常 大 ， 搜 索 起 来 就 非常 慢 。 对 于 大 训练 集 ， 采 取 某 些 装 箱 形式 通常 会 减少 对 比 的 次 
数 ” 从 积极 的 一 面 来 看 ， 这 种 方法 在 采用 何 种 距离 度量 方面 是 没有 限制 的 ， 实 际 上 ， 
对 于 你 所 能 想到 的 东西 它 都 可 以 奏效 ， 但 这 并 不 意味 着 对 任何 东西 它 的 分 类 性 能 都 很 
好 。 另 外 ， 这 种 算法 的 可 并 行 性 也 很 一 般 。 

实现 最 基本 的 KNN 形式 非常 简单 。 给 定 训 练 样本 集 和 对 应 的 标记 列表 ， 下 面 的 代码 
可 以 用 来 完成 这 一 工作 。 这 些 训练 样本 和 标记 可 以 在 一 个 数组 里 成 行 摆 放 或 者 干脆 摆 
放 列 表 里 ， 训 练 样本 可 能 是 数字 、 字 符 串 等 任何 你 喜欢 的 形状 。 将 定义 的 类 对 象 添加 
到 名 为 knn.py 的 文件 里 : 


注 1: 另 一 个 选择 是 只 保留 从 训练 集 挑选 出 的 子 集 ， 但 这 会 影响 分 类 准确 率 。 
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class KnnClassifier(object): 


oe __init_ (self, labels aa 
"使 用 训练 数据 初始 化 分 类 器 " 


self.labels = labels 
self.samples = samples 


def classify(self, point, k=3): 
"在 训练 数据 上 采用 k 近邻 分 类 ， 并 返回 标记 """ 


# 计算 所 有 训练 数据 点 的 距离 
dist = array([L2dist(point,s) for s in self.samples]) 


# 对 它们 进行 排序 
ndx = dist.argsort() 


t 用 字典 存储 k 近邻 

votes = {} 

for i in range(k): 
label = self.labels|ndx[i] | 
votes.setdefault (label, 0) 
votes[ label] += 1 


return max(votes ) 


def L2dist(p1,p2): 
return sqrt( sum( (p1-p2)**2) ) 


定义 一 个 类 并 用 训练 数据 初始 化 非常 简单 ; 每 次 想 对 某 些 东西 进行 分 类 时 ， 用 KNN 
方法 ， 我 们 就 没有 必要 存储 并 将 训练 数据 作为 参数 来 传递 。 i 
标记 ， 我 们 便 可 以 用 文本 字符 是 或 数字 来 表示 标记 。 在 这 个 例子 中 ， 我 们 用 欧式 距 
A (L) 进行 度量 ， 当 然 ， 如 琳 你 有 其 他 的 度量 方式 ， 只 需要 将 其 作为 函数 添加 到 上 
面 代码 的 最 后 。 


8.1.1 一 个 简单 的 二 维 示例 
我 们 首 和 所 建立 一 坚 间 昔 的 一 维 示例 数据 集 来 况 明 并 可 视 化 分 TRAHI LIERE, FHAR 
脚本 将 创建 两 个 不 同 的 二 维 点 集 ， 每 个 点 集 有 两 类 ， 用 Pickle 模块 来 保存 创建 的 数据 : 





from numpy.random import randn 
import pickle 


# 创建 二 维 样本 数据 
n = 200 
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# 两 个 正 态 分 布 数据 集 

class 1 = 0:6 ~ randn(n,2) 

class 2 =1.2 * randn(n,2)+ array([5,4]) 
labels = hstack((ones(n),-ones(n))) 


# 用 Pickle 模块 保存 

with open('points normal.pkl', 'w') as f: 
pickle.dump(class 1, f) 
pickle.dump(class 2, f) 
pickle.dump (labels, fF) 


# 正 态 分 布 ， 并 使 数据 成 环绕 状 分 布 

class 1 = 0.6 * randn(n,2) 

r= 0.8 * randn(n,1) +5 

angle = 2*pi * randn(n,1) 

class 2 = hstack((r*cos(angle),r*sin(angle) )) 
labels = hstack((ones(n),-ones(n))) 


# FA Pickle 保存 

with open('points ring.pkl', 'w') as f: 
pickle.dump(class 1, f) 
pickle.dump(class 2, f) 
pickle.dump (labels, fF) 


用 不 同 的 保存 文件 名 运行 该 脚本 两 次 ， 例 如 第 一 次 用 代码 中 的 文件 名 进行 保存 ， 第 
二 次 将 代码 中 的 points_normal_t.pkl 和 points_ring_pkl 分 别 改 为 points_normal_test. 
pkl 和 points_ring_test.pkl 进行 保存 。 你 将 得 到 4 个 二 维 数 据 集 文件 ， 每 个 分 布 都 有 
两 个 文件 ， 我 们 可 以 将 一 个 用 来 训练 ， 另 一 个 用 来 做 测试 。 


让 我 们 看 看 怎么 用 KNN 分 类 堪 来 完成 ， 用 下 面 的 代码 来 创建 一 个 脚本 : 


import pickle 
import knn 
import imtools 


# 用 Pickle 载 入 二 维 数据 后 

with open('points normal.pkl', 'r') as f: 
class 1 = pickle.load(f) 
class 2 = pickle.load(f) 
labels = pickle. load(f) 


model = knn.KnnClassifier(labels,vstack((class 1,class 2))) 





这 里 用 Pickle 模块 来 创建 一 个 kNN DRRR, EE Lm Baas PARAS : 
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# FA Pickle 模块 载 入 测试 数据 

with open('points normal test.pkl', 'r') as f: 
class 1 = pickle.load(f) 
class 2 = pickle.load(f) 
labels = pickle. load(f) 


# 在 测试 数据 集 的 第 一 个 数据 点 上 进行 测试 
print model.classify(class 1[0]) 


上 面 代码 载 入 另 一 个 数据 集 (测试 数据 集 )， 并 在 你 的 控制 台 上 打印 第 一 个 数据 点 估 
计 出 来 的 类 标记 。 


为 了 可 视 化 所 有 测试 数据 点 的 分 类 ， 并 展示 分 类 如 将 两 个 不 同 的 类 分 开 得 怎样 ， 我 
们 可 以 添 加 这 些 代码 : 


# 定义 绘图 函数 
def classify(x,y,model=model): 
return array([model.classify([xx,yy]) for (xx,yy) in zip(x,y)]) 


# 绘制 分 类 边界 
imtools.plot 2D boundary([-6,6,-6,6],[class 1,class 2],classify,[1,-1]) 
show( ) 


这 里 我 们 创建 了 一 个 简短 的 辅助 函数 以 获取 x 和 ?了 二 维 坐标 数组 和 分 类 大 ， 并 返回 


一 个 预测 的 类 标记 数组 。 现 在 我 们 把 函数 作为 参数 传递 给 实际 的 绘图 函数 。 把 下 面 
的 函数 添加 到 文件 imtools 中 : 





def plot 2D boundary(plot range,points,decisionfcn,1abels,values=[01]): 
"""Plot range 为 (xmin, xmax, ymin, ymax), points 是 类 数据 点 列表 ， 
decisionfcn 是 评估 函数 ，labels 是 函数 decidionfcn 关于 每 个 类 返回 的 标记 列表 """ 








clist = ['b','r','g','k','m','y'] # 不 同 的 类 用 不 同 的 颜色 标识 


# 在 一 个 网 格 上 进行 评 佑 ， 并 画 出 决策 函数 的 边界 

x = arange(plot_range[0],plot_range[1],.1) 

y = arange(plot_range[2],plot_range[3],.1) 

xx,yy = meshgrid(x,y) 

Xxx, yyy = xx.flatten(),yy.flatten() # 网 格 中 的 x, y 坐标 点 列表 
zz = array(decisionfcn(xxx, yyy) ) 

ZZ = zz.reshape(xx.shape) 

# 以 values 画 出 边界 

contour (xx, yy, ZZ, Values) 


# 对 于 每 类 ， 用 * 画 出 分 类 正确 的 点 ， 用 o 画 出 分 类 不 正确 的 点 


for i in range(len(points)): 
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d = decisionfcn(points[i][:,0],points[i][:,1]) 
correct ndx = labels[i]==d 
]!=d 


plot(points[i][correct_ndx,0],points[i][correct_ndx,1],'*',color=clist[i]) 


incorrect _ ndx = labels[i 
plot(points[i][incorrect_ndx,0],points[i][incorrect_ndx,1],'o',color=clist[i]) 
axis('equal') 


XAAR ARR (分 类 器 )， 并 且 用 meshgrid() 国 数 在 一 个 网 格 上 进行 预 
训 。 诀 策 国 数 的 等 值 线 可 以 显示 边界 的 位 置 ， 默 认 边 界 为 零 等 值 线 。 画 出 来 的 结果 如 
8-1 所 示 ， 正 如 你 所 看 到 的 ，KNN 决策 边界 适用 于 没有 任何 明确 模型 的 类 分 布 。 














图 8-1: AK 邻近 分 类 器 分 类 二 维 数据 。 每 个 示例 中 ， a EANNA 
ASR, DRGRNRAARRN, HXREDRSNARD 


8.1.2 ”用 稠密 SIFT 作 为 图 像 特征 

我 们 来 看 如 何 对 图 像 进 行 分 类 。 要 对 图 像 进 行 分 类 ， 我 们 需要 一 个 特征 问 量 来 表示 
wee. 在 聚 类 一 章 我 们 用 平均 RGB 像素 值 和 PCA 系数 作为 图 像 的 特征 向 量 ， 
这 里 我 们 会 介绍 另外 一 种 表示 形式 ， 即 稠密 SIFT 特征 癌 量 。 


在 整 幅 图 像 上 用 一 个 规则 的 网 格 应 用 SIFT 描述 子 可 以 得 到 稠密 SIFT 的 表示 形式 "， 
我 们 可 以 利用 2.2 市 的 可 执行 脚本 ， 通 过 添加 一 些 额 外 的 参数 来 得 到 稠密 SIFT 特 
征 。 创 建 一 个 名 为 dsift.py 的 文件 ， 并 添加 下 面 代 码 到 该 文件 中 : 


import sift 


def process image dsift(imagename,resultname,size=20,steps=10, 
force orientation=False, resize=None): 





注 1: 男 一 个 常见 的 名 字 是 方向 梯度 直方 图 (HOG). 
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“" 用 密集 采样 的 SIFT 描述 子 处 理 一 幅 图 像 ， 并 将 结 末 保存 在 一 个 文件 中 。 可 选 的 输入 : 
特征 的 大 小 size， 位 置 之 间 的 步 长 steps， 和 是否 强 迫 计算 描述 子 的 方位 force orientation 
(False 表示 所 有 的 方位 都 是 朝 上 的 ) ， 用 于 调整 图 像 大 小 的 元 组 "”" 





im = Image.open(imagename).convert('L' ) 
if resize!=None: 

im = im.resize(resize) 
m,n = im.size 


if imagename[-3:] != 'pgm': 
# 创建 一 个 pgm 文件 
im.save('tmp.pgm' ) 
imagename = ‘tmp.pgm' 





# 创建 帧 ， 并 保存 到 临时 文件 

Scale = Size/ 320 

x,y = meshgrid(range(steps,m,steps), range(steps,n,steps) ) 

xx, yy = x.flatten(),y.flatten() 

frame = array([xx, yy, Scale*ones(xx.shape[0]),zeros(xx.shape[0]) ]) 
savetxt('tmp.frame',frame.T, fmt='%03.3f' ) 


if force orientation: 
cmmd = str("sift "+imagename+" --output="+resultname+ 
" --read-frames=tmp.frame --orientations") 
else: 
cmmd = str("sift "+imagename+" --output="+resultname+ 
" --read-frames=tmp. frame" ) 
os.system(cmmd) 
print ‘processed’, imagename, ‘to', resultname 


对 比 2.2 市 的 process image() 国 数 ， 为 了 使 用 命令 行 处 理 ， 我 们 用 savetxt() 函数 
将 帧 数组 存储 在 一 个 文本 文件 中 ， 该 国 数 的 最 后 一 个 参数 可 以 在 提取 描述 子 之 前 对 
图 像 的 大 小 进行 调整 ， 人 例如， 传递 参数 imsize=(100, 100) 会 将 图 像 调 整 为 100 x 100 
像素 的 方形 图 像 。 最 后 ， 如 果 force orientation 为 真 ， 则 提取 出 来 的 描述 子 会 基于 
局 部 主 梯度 方向 进行 归 一 人 化， 否则 ， 则 所 有 的 描述 子 的 方 回 只 是 简单 地 朝 上 。 


利用 类 似 下 面 的 代码 可 以 计算 稠密 SIFT 描述 子 ， 并 可 视 化 它们 的 位 置 : 








import dsift,sift 


dsift.process image dsift('empire.jpg','empire.sift' ,90,40, True) 
l,d = sift.read features from file('empire.sift' ) 


im = array(Image.open('empire.jpg' ) ) 
sift.plot_features(im,1,True) 
show( ) 
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使 用 用 于 定位 描述 子 的 局 部 梯度 方 则 (force orientation 设置 为 真 )， 该 代码 可 以 
在 整个 图 像 中 计算 出 稠密 SIFT 特征 。 图 8-2 显示 出 了 这 些 位 置 。 
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8-2: 在 一 幅 图 像 上 应 用 稠密 SIFT 描述 子 的 例子 


8.1.3 图像 分 类 : 手势 识别 

在 这 个 应 用 中 ， 我 们 会 用 稠密 SIFT 描述 子 来 表示 这 些 手势 图 像 ， 并 建立 一 个 简单 
的 手势 识别 系统 。 我 们 用 静态 手势 (Static Hand Posture) 数据 库 (参见 http://www. 
idiap.ch/resource/gestures/) 中 的 一 些 图 像 进行 演示 。 在 该 数据 库 主 页 上 下 载 数 据 较 
小 的 测试 集 test set 16.3Mb， 将 下 载 后 的 所 有 图 像 放 在 一 个 名 为 uniform 的 文件 夹 
里 ， 每 一 类 均 分 两 组 ， 并 分 别 放 入 名 为 train 和 test 的 两 个 文件 夹 中 。 


用 上 面 的 稠密 SIFT 函数 对 图 像 进行 处 理 ， 可 以 得 到 所 有 图 像 的 特征 向 量 。 这 里 ， 
再 次 假设 列表 imlist 中 包含 了 所 有 图 像 的 文件 和 名， 可 以 通过 下 面 的 代码 得 到 每 幅 图 
像 的 稠密 SIFT 特征 : 


import dsift 





# 将 图 像 尺 寸 调 为 (50,50)， 然 后 进行 处 理 
for filename in imlist: 
featfile = filename[:-3]+'dsift' 
dsift.process image dsift(filename, featfile,10,5,resize=(50, 50) ) 


上 面 代码 会 对 每 一 幅 图 像 创 建 一 个 特征 文件 ， 文 件 名 后 组 为 .dsift。 注 意 ， 这 里 将 图 
RDB TR LE RA, ETE BRAY, AMARA A A al Bee 
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描述 子 ， 从 而 每 幅 图 像 的 特征 向 量 长 度 也 不 一 样 ， 这 将 导致 在 后 面 比 较 它 们 时 出 错 。 
图 8-3 绘制 出 了 一 些 带 有 摘 述 子 的 图 像 。 









SA “B” “C”? 
“Five” “Point” Vy” 








8-3: 6 类 简单 手势 图 像 的 稠密 SIFT 描述 子 ， 图 像 来 源 于 静态 手势 (Static Hand Posture) 
数据 库 


定义 一 个 辅助 函数 ， 用 于 从 文件 中 读 取 稠密 SIFT 摘 述 子 ， 如 下 : 
import os, sift 


def read gesture features labels(path): 
# 对 所 有 以 .dsift 为 后 缀 的 文件 创建 一 个 列表 
featlist = [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.dsift') |] 
# 读 取 特 征 
features = | 
for featfile in featlist: 
1,d = sift.read features from file(featfile) 
features.append(d.flatten()) 
features = array(features) 


# 创建 标记 
labels = [featfile.split('/')[-1][0] for featfile in featlist] 


return features, array(labels) 








然后 ， 我 们 可 以 用 下 面 的 脚本 读 取 训练 集 、 测 试 集 的 特征 和 标记 信息 : 
features, labels = read gesture features labels('train/' ) 
test _features,test labels = read gesture features labels('test/') 


classnames = unique(labels) 


这 里 ， 我 们 用 文件 名 的 第 一 个 字母 作为 类 标记 ， 用 NumPy AY unique() 函数 可 以 得 到 
一 个 排序 后 唯一 的 类 名 称 列 表 。 


现在 我 们 可 以 在 该 数据 上 使 用 前 面 的 KK 近邻 代码 : 


# 测试 KNN 

ksi 

knn classifier = knn.KnnClassifier(labels,features) 

res = array([knn_classifier.classify(test_features[i],k) for i in 
range(len(test_labels)) ]) 


# 准确 率 
acc = sum(1.0*(res==test labels)) / len(test_ labels) 
print “Accuracy: s acc 


首先 ， 用 训练 数据 及 其 标记 作为 输入 ， 创 建 分 类 絮 对 象 ， 然 后 ， 我 们 在 整个 测试 集 
Li JSR classify() 方法 对 每 幅 图 像 进行 分 类 。 将 布尔 数组 和 1 相 乘 并 求 和 ， 可 
以 计算 出 分 类 的 正确 率 。 由 于 该 例 中 真 值 为 1!1， 所 以 很 容易 计算 出 正确 分 类 数 。 它 
应 该 会 打印 出 一 个 类 似 下 面 的 结 采 : 


Accuracy: 0.811518324607 


这 说 明 该 例 中 有 81% 的 图 像 古 正确 的 。 该 结 末 会 随 K 值 及 稠密 SIFT 图 像 描 述 子 参 
数 的 选择 而 变化 。 


虽然 上 面 的 正确 率 显 示 了 对 于 一 给 定 的 测试 集 有 多 少 图 像 古 正确 分 类 的 ， 但 是 它 并 
设 有 告诉 我 们 哪些 手势 难以 分 类 ， 或 会 犯 哪些 典型 错误 。 混 清 答 阵 古 一 个 可 以 显示 
每 类 有 多 少 个 样本 被 分 在 每 一 类 中 的 矩阵 ， 它 可 以 显示 错误 的 分 布 情况 ， 以 及 哪些 
类 是 经 党 相互 “混淆” 的 。 








下面 的 函数 会 打印 出 标记 及 相应 的 混淆 和 矩阵: 
def print confusion(res,1abels,classnames): 


n = len(classnames) 
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# 混 请 矩阵 
class ind = dict([(classnames[i],i) for i in range(n) ]) 


confuse = zeros((n,n)) 
for i in range(len(test_labels)): 
confuse[class ind[res[i]],class ind[test labels[i]]] += 1 


print ‘Confusion matrix for' 
print classnames 
print confuse 


»— 一 


IA1T: 
print_confusion(res,test_labels,classnames) 
打印 输出 应 该 如 下 : 


Confusion matrix for 


[Ca Oe ea “eb So 

FL 2. De 2a. ee he. “Ae 
S02 265 206: Ms Bs Ael 
|. (Oe. Or 25s. 10s. Oe Ae 
[ O. 3. She, Ox. “0% 
fs He. “Re 2. Oe SI, “ll 
| Be Bs Be Ge My OAT] 


上 面 混 洒 矩阵 显示 ， 本 例子 中 P 了 (Point) BERRIN V”. 


8.2 WNT Mat Zee 


另 一 个 简单 却 有 效 的 分 类 器 是 贝 叶 斯 分 类 器 (或 称 朴 素 贝 叶 斯 分 类 器 ) 。 贝 叶 斯 分 
类 如 是 一 种 基于 贝 叶 斯 条 件 概 率 定 理 的 概率 分 类 如 ， 它 假设 特征 是 彼此 独立 不 相关 的 
(这 就 是 它 “ 杆 素 ” 的 部 分 )。 贝 叶 斯 分 类 器 可 以 非 第 有 效 地 被 训练 出 来 ,原因 在 于 
每 一 个 特征 模型 都 是 独立 选取 的 。 尽 管 它 们 的 假设 非常 简单 ， 但 是 贝 叶 斯 分 类 维 已 经 
在 实际 应 用 中 获得 显 闭 成 效 ， 尤 其 是 对 垃圾 邮件 的 过 小 。 贝 叶 斯 分 类 幽 的 男 一 个 好 处 
we, 一 旦 学 习 了 这 个 模型 ， 就 没有 必要 存储 训练 数据 了， 只 需 存 储 模 型 的 参数 。 


该 分 类 絮 是 通过 将 各 个 特征 的 条 件 概 率 相 乘 得 到 一 个 类 的 总 概率 ， 然 后 选取 概率 最 
高 的 那个 类 构造 出 来 的 。 











注 1: WU Rese, 18 世纪 英国 教学 家 、 牧 师 托马斯 贝 叶 斯 命名 的 。 





a Je LE BR a — AEH ER TU ap 8 as FE AS SEL, Hite HM 
训练 数据 集 计 算得 到 的 特征 均值 和 方差 来 对 每 个 特征 单独 建 模 。 把 下 面 的 Bayes 
Classifier 类 添加 到 文件 bayes.py 中 : 


class BayesClassifier(object): 


def init (self): 
"fe RBC aa hay ae" 


self.labels = [] # 类 标签 
self.mean = [] # 类 均值 
self.var = [] # 类 方差 
self.n = 0 # 类 别 数 


def train(self,data, labels=None): 
nun 在 数据 data (nx dim 的 数组 列表 ) 上 训练 ， 标 记 labels 是 可 选 的 ， 默 认为 0…1-1 """ 


if labels==None: 

labels = range(len(data) ) 
self.labels = labels 
self.n = len(labels) 


for c in data: 
self.mean.append(mean(c,axis=0)) 
self.var.append(var(c,axis=0)) 


def classify(self,points): 
ee 通过 计算 得 出 的 每 一 类 的 概率 对 数据 点 进行 分 类 ， 并 返回 最 可 能 的 标记 """ 


# 计算 每 一 类 的 概率 
est prob = array([gauss(m,v,points) for m,v in zip(self.mean,self.var) ]) 





# 获取 具有 最 高 概率 的 索引， 该 索引 会 给 出 类 标签 
ndx = est_prob.argmax(axis=0) 
est labels = array([self.labels[n] for n in ndx]) 


return est labels, est prob 


该 模型 每 一 类 都 有 两 个 变量 ， 即 类 均值 和 协 方差 。train() 方法 歼 取 特征 数组 列表 
(每 个 类 对 应 一 个 特征 数组 )， 并 计算 每 个 特征 数组 的 均值 和 协 方 差 。classify() 方 
法 计算 数据 点 构成 的 数组 的 类 概率 ， 并 选 概 率 最 高 的 那个 类 ， 最 终 返 回 预 测 的 类 标 
记 及 概率 值 ， 同 时 需要 一 个 高 斯 辅助 函数 : 
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def gauss(m,v,x): 


""" 用 独立 均值 m 和 方差 v 评估 d 维 高 斯 分 布 """ 


if len(x.shape)==1: 
n,d = 1,x.shape[0] 
else: 
n,d = x.shape 


# 协 方差 矩阵 ， 减 去 均值 
S = diag(1/v) 


X = X-M 
# 概率 的 乘积 


y = exp(-0.5*diag(dot(x,dot(S,x.T)))) 


t 归 一 化 并 返回 

return y * (2*pi)**(-d/2.0) / ( sqrt(prod(v)) + 1e-6) 
1 eB A He ee eT oo MARI, ae Tl 25 E — 2 a A m Fv 的 概率 ， 更 
多 多 元 正 态 分 布 例子 可 以 参见 http://en. wikipedia.org/wiki/Multivariate_normal_ 


distribution, 


将 该 贝 叶 斯 分 类 器 用 于 上 一 节 的 二 维 数据 ， 下 面 的 脚本 将 载 入 上 一 节 中 的 二 维 数据 ， 
并 训练 出 一 个 分 类 器 : 





import pickle 
import bayes 
import imtools 


# FA Pickle 模块 载 入 二 维 样本 点 

with open('points normal.pkl', 'r') as f: 
class 1 = pickle. load(f) 
class 2 = pickle.load(f) 
labels = pickle. load(f) 


# WIZ UL aa ZR at 
bc = bayes.BayesClassifier() 
bc.train([class 1,class 2],[1,-1]) 


下 面 我 们 可 以 载 入 上 一 节 中 的 二 维 测 试 数 据 对 分 类 器 进行 测试 : 


# 用 Pickle 模块 载 和 人 测试 数据 

with open('points normal test.pkl', 'r') as f: 
class 1 = pickle. load(f) 
class 2 = pickle.load(f) 
labels = pickle. load(f) 
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# 在 某 些 数据 点 上 进行 测试 
print bc.classify(class 1[:10])[0] 





# 绘制 这 些 二 维 数据 点 及 决策 边界 
def classify(x,y,bc=bc): 

points = vstack((x,y)) 

return bc.classify(points.T)[0] 


imtools.plot_2D boundary([-6,6,-6,6],[class 1,class 2],classify,[1,-1]) 
show() 


该 脚本 会 将 前 10 7S ZR BH RAY 2 EA RAT Ela SPE HG, AC AGAR A PP: 
Dt at a a, a | 
我 们 再 次 用 一 个 辅助 函数 classify() 在 一 个 网 格 上 评估 该 函数 来 可 视 化 这 一 分 类 结 


末 。 两 个 数据 集 的 分 类 结 末 如 图 8-4 所 示 ; 该 例 中 ， 决 策 边 界 是 一 个 椭圆 ， 类 似 于 
二 维 高 斯 函数 的 等 值 线 。 

















图 8-4: 用 贝 叶 斯 分 类 器 对 二 维 数据 进行 分 类 。 每 个 例子 中 的 颜色 代表 了 类 标记 。 正 确 分 类 
的 点 用 星 号 表示 ， 误 错 分 类 的 点 用 圆 点 表示 ， 曲 线 是 分 类 器 的 决策 边界 


用 PCA 降 维 

现在 ， 我 们 党 斌 手势 识 别 问 题 。 由 于 稠密 SIFT 描述 子 的 特征 向 量 十 分 庞大 (从 前 
面 的 例子 可 以 看 到 ， 参 数 的 选取 超过 了 10 000) ， 在 用 数据 拟 合 模型 之 前 进行 降 维 
处 理 是 一 个 很 好 的 想法 。 主 成 分 分 析 ， 即 PCA ( 见 1.3 节 )， 非 常 适 合用 于 降 维 。 下 
面 的 脚本 就 是 用 pca.py 中 的 PCA 进行 降 维 : 
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import pca 
V,S,m = pca.pca(features) 


# 保持 最 重要 的 成 分 

V = V[:50] 

features = array(|[dot(V,f-m) for f in features]) 

test features = array([dot(V,f-m) for f in test features ]) 


这 里 的 features 和 test_features 5 K 邻近 中 的 例子 中 加 载 的 数组 是 一 样 的 。 在 本 
例 中 ， 我 们 在 训练 数据 上 用 PCA 降 维 ， 并 保持 在 这 50 维 具 有 最 大 的 方差 。 这 可 以 
通过 均值 m (是 在 训练 数据 上 计算 得 到 的 ) 并 与 基 问 量 V 相 乘 做 到 。 对 测试 数据 进 
行 同样 的 转换 。 
训练 并 测试 贝 叶 斯 分 类 絮 如 下 : 

# 测试 贝 叶 斯 分 类 妖 


bc = bayes.BayesClassifier() 
blist = [features[where(labels==c)[0]] for c in classnames] 


bc.train(blist,classnames) 
res = bc.classify(test_features) [0] 


由 于 BayesClassifier 需要 获取 数组 列表 (每 一 类 对 应 一 个 数组 )， 在 把 数据 传递 给 
train() 函数 之 前 ， 我 们 需要 对 数据 进行 转换 。 因 为 我 们 目前 还 不 需要 概率 ， 所 以 只 
需 运 回 预 测 的 类 标记 。 


检查 分 类 准确 率 : 





acc = sum(1.0*(res==test labels)) / len(test labels) 
print ‘Accuracy:', acc 


输出 如 下 结果 : 


Accuracy: 0.717277486911 
or ELEGY FED : 
print_confusion(res,test_labels,classnames) 


输出 如 下 结果 : 
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Confusion matrix for 


| 
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虽然 分 类 效 采 不 如 KK MTR ae, TE ee DP SOT K ar AN as 22 OR E M I BCH , 
而 且 只 需 保 存 每 个 类 的 模型 参数 。 这 一 结 东 会 随 着 PCA 维度 选取 的 不 同 而 发 生 巨 大 
He Tt. 


8.3 文 持 回 量 机 

SVM (Support Vector Machine， 支 持 向 量 机 ) 是 一 类 强大 的 分 类 絮 ， 可 以 在 很 多 分 
类 问题 中 给 出 现 有 水 准 很 高 的 分 类 结果 。 最 简单 的 SVM 通过 在 高 维 空间 中 寻找 一 
个 最 优 线 性 分 类 面 ， 尽 可 能 地 将 两 类 数据 分 开 。 对 于 一 特征 同 量 x 的 决策 函数 为 : 





f(x)=w-x-b 


Srp w ERMEE, bMS ELAR, PEC By 0, CAERE He 
类 数据 分 开 ， 使 其 一 类 为 正 数 ， 另 一 类 为 负数 。 通 过 在 训练 集 上 求解 那些 带 有 标记 
ye {1 D 的 特征 向 量 x 的 最 优化 问题 ， 使 超 平面 在 两 类 间 具 有 最 大 分 开间 隔 ， 从 
而 找到 上 面 决策 函数 中 的 参数 w 和 4b。 该 决策 函数 的 常规 解 是 训练 集 上 某 些 特征 向 
量 的 线性 组 合 : 


w= CO 
所 以 决策 函数 可 以 写 为 : 
f(x) = 2 .Lyx X—b 
这 里 的 是 从 训练 集中 选 出 的 部 分 样本 ， 这 里 选择 的 样本 称 为 支持 向 量 ， 因 为 它们 
可 以 帮助 定义 分 类 的 边界 。 


SVM 的 一 个 优势 是 可 以 使 用 核 函 数 (kernel function) ; 核 国 数 能 够 将 特征 癌 量 映射 到 
男 外 一 个 不 同 维度 的 空间 中 ， 比 如 高 维度 空间 。 通 过 核 函 数 上 映射， 依然 可 以 保持 对 决 
策 国 数 的 控制 ， 从 而 可 以 有 效 地 解决 非 线性 或 者 很 难 的 分 类 问题 。 用 核 国 数 K(x; , x) 
FARE TARE ER BAIA BR x, : x。 
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PB ile BE pe Fs LAY PAL : 


。 线性 是 最 简单 的 情况 ， 即 在 特征 空间 中 的 超 平面 是 线性 的 ，K(x,, x)=x Xs 

。 多 项 式 用 次 数 为 d 的 多 项 式 对 特征 进行 映射 ，K(x, x)=(Yx;: x+7)”，Y>0; 

。 径 向 基 函 数 ， 通 常 指数 函数 是 一 种 极其 有 效 的 选择 ，KCc , x)=", y>0; 
e Sigmoid 函数 ， 一 个 更 光 背 的 超 平 面 替 代 方 案 ，K(x;, x)=tanh(yx x+ 门 。 


每 个 核 函数 的 参数 部 古 在 训练 阶段 确定 的 。 


对 于 多 分 类 问题 ， 通 前 训练 多 个 SVM， 使 每 一 个 SVM 可 以 将 其 中 一 类 与 其 余 类 分 
开 ， 这 样 的 分 类 絮 也 称 为 “one-versus-all” 分 类 如 。 关 于 SVM WE 24 AA Be 
文献 [9] 以 及 在 线 文档 http://www.support-vector.net/references.html 。 








8.3.1 使 用 LibSVM 


LibSVM[7] 是 最 好 的 、 使 用 最 广泛 的 SVM 实现 工具 包 。LibSVM 为 Python 提供 了 
一 个 民 好 的 接口 (也 为 其 他 编程 语言 提供 了 接口 )。 关 于 安装 说 明 ， 可 以 参阅 附录 
AA, 


我 们 看 看 LibSVM 在 二 维 样本 数据 点 上 是 怎样 工作 的 。 下 面 的 脚本 会 载 入 在 前 面 
KNN 范例 分 类 中 用 到 的 数据 点 ， 并 用 人 径 向 基 范 数 训 练 一 个 SVM 分 类 器 : 


import pickle 
from svmutil import * 
import imtools 


# FH Pickle 载 入 二 维 样本 点 

with open('points normal.pkl', 'r') as f: 
class 1 = pickle.load(f) 
class 2 = pickle.load(f) 
labels = pickle. load(f) 


# 转换 成 列表 ， 便 于 使 用 1ibSvM 

class 1 = map(list,class 1) 

class 2 = map(list,class 2) 

labels = list(labels) 

samples = class 1+class 2 # 连 接 两 个 列表 


# 创建 SVM 
prob = svm problem(labels,samples) 
param = svm parameter('-t 2') 


# 在 数据 上 训练 SVM 
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m = svm train(prob, param) 


# 在 训练 数据 上 分 类 效果 如 何 ? 


res = svm predict(labels,samples,m) 


我 们 用 与 前 面 一 样 的 方法 载 入 数据 集 ， 但 是 这 次 需要 把 数组 转 成 列表 ， 因 为 
LibSVM 不 支持 数组 对 象 作 为 输入 。 这 里 ， 我们 用 Python 的 内 建国 数 map() 进行 转 
换 ，map() 国 数 中 用 到 了 对 角 一 个 元 素 都 会 进行 转换 的 1ist() 函数 。 紧 接着 我 们 创 
建 了 一 个 swm problem 对 象 ， 并 为 其 设置 了 一 些 参数 。 调 用 svm train() 求解 该 优 
化 问题 用 以 确定 模型 参数 ， 然 后 就 可 以 用 该 模型 进行 预测 了 。 最 后 一 行 调用 svm_ 
predict()， 用 求 得 的 模型 m 对 训练 数据 分 类 ， 并 显示 出 在 训练 数据 中 分 类 的 正确 
率 ， 打 印 输出 结 来 如 下 : 


Accuracy = 100% (400/400) (classification) 
EER AVIA a Kas CAI SWAB, 400 个 数据 点 全 部 分 类 正确 。 


注意 ， 我 们 在 调用 方法 训练 分 类 器 时 添加 了 一 个 参数 选择 字符 串 ， 这 些 参 数 用 于 控 
制 核 函数 的 类 型 、 等 级 及 其 他 选项 。 尽 省 其 中 大 部 分 超出 了 本 书 玫 围 ， 但 古 需 要 知 
道 两 个 重要 有 的 参数 1 和 有。 参数 1 决定 了 所 用 核 函 数 的 类 型 ， 该 选项 是 : 











“1 核 函数 


Ww N FS O 
~ 

© HN 
EN 


参数 决定 了 多 项 式 的 次 数 (默认 为 3)。 
现在 ， 载 入 其 他 数据 集 ， 并 对 该 分 类 侨 进 行 测 试 : 


# FH Pickle 模块 载 入 测试 数据 

with open('points normal test.pkl', 'r') as f: 
class 1 = pickle.load(f) 
class 2 = pickle. load(f) 
labels = pickle. load(f) 


# 转换 成 列表 ， 便 于 使 用 LipsVM 
class 1 = map(list,class 1) 
class 2 = map(list,class 2) 


H 定义 绘图 函数 
def predict(x,y,model=m): 
return array(svm predict([0]*len(x),zip(x,y),model)[01]) 
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# 绘制 分 类 边界 
imtools.plot 2D boundary([-6,6,-6,6],[array(class 1),array(class 2)],predict,[-1,1]) 
show( ) 


我 们 需要 再 次 为 LibSVM 将 数据 转 成 列表 ， 同 时 和 之 前 一 样 ， 我 们 定义 了 一 个 辅 
B) A žr predict) 来 绘制 分 类 的 边界 。 注 意 ， 如 果 无 法 获取 真实 的 标记 ， 我 们 用 
([0]*len(x)) 列表 来 代替 标记 列表 。 只 要 代替 的 标记 列表 长 度 正 确 ， 你 可 以 使 用 任意 
的 列表 。 图 8-5 显示 了 两 个 不 同 数据 集 在 二 维 平面 上 的 分 布 情况 。 


























图 8-5: 用 支持 向 量 机 SVM 对 二 维 数据 进行 分 类 。 在 这 两 幅 图 中 ， 我 们 用 不 同 颜色 标识 类 标 
记 。 正 傅 分 类 的 点 用 星 号 表示 ， 错 误 分 类 的 点 用 圆 点 表示 ， 曲 线 定 分 类 器 的 决策 边 容 


8.3.2 再 论 手势 识别 
在 多 类 手势 识别 问题 上 使 用 LibSVM 相当 直观 。LibSVM 可 以 目 动 处 理 多 个 类 ， 我 
们 只 需要 对 数据 进行 格式 化 ， 使 输入 和 输出 匹配 LibSVM 的 要 求 。 


和 之 前 的 例子 一 样 ，feature 和 test_features 两 个 文件 中 分 别 数组 的 形式 保存 训练 数据 
和 测试 数据 。 下 面 的 代码 会 载 入 训练 数据 测试 数据 ， 并 训练 一 个 线性 SVM 分 类 器 : 


features = map(list, features) 
test_features = map(list,test features) 


H 为 标记 创建 转换 函数 

trans! = {} 

for i,c in enumerate(classnames): 
transl ch trans! (4), Se 


# 创建 SVM 
prob = svm problem(convert_labels(labels,trans1), features) 
param = svm parameter('-t 0') 





# 在 数据 上 训练 SVM 


m = svm train(prob, param) 


t 在 训练 数据 上 分 类 效果 如 何 


res = svm predict(convert_labels(labels,trans1l),features,m) 


# MA SVM 
res = svm predict(convert_labels(test_labels,transl),test_features,m)[0] 
res = convert _labels(res, transl) 


与 之 前 一 样 ， 我 们 调用 map) 函数 将 数组 转 成 列表 ， 因 为 LibSVM 不 能 处 理 字 符 串 
标记 ， 所 以 这 些 标记 也 需要 转换 。 字 上 典 transl 会 包含 一 个 在 字符 串 和 整数 标记 间 的 
变换 。 你 可 以 试 着 在 控制 台 上 打印 该 变换 ， 看 看 其 对 应 变换 关系 。 参 数 -t 0 设置 分 
类 器 是 线性 分 类 器 ， 决 策 边 界 在 10 000 维特 征 原 空间 中 是 一 个 超 平面 。 


现在 ， 对 标记 进行 比较 : 





acc = sum(1.0*(res==test labels)) / len(test_ labels) 
print 'Accuracy:', acc 


print_confusion(res,test_labels,classnames) 
HH Zk PEIZ BRAC BAI RERAN P : 


Accuracy: 0.916230366492 
Confusion matrix for 


A SBT ES ARA pe ee 

l-20 202, ie 
i 0 Oe De D ie] 
E 0e 100.620 Os. 0 Oa 
i SOs 22h, Os: SCs O Oe] 
| 90%. “dle, We: 07 27, Ae) 
CP. 3h Ge Das. 3h. 27 


现在 ， 正 如 我 们 在 8.2 节 所 做 的 ， 用 PCA 将 维 数 降 低 到 50， 分 类 正确 率 变 为 : 


Accuracy: 0.890052356021 


可 以 看 出 ， 当 特征 癌 量 维 数 降低 到 原 空 间 数 据 维 数 的 1/200 时 ， 结 果 并 不 差 (存储 
支持 向 量 所 需 占 用 的 空间 也 减 小 到 原来 的 1/200 ) 。 


8.4 ”光学 字符 识别 
作为 一 个 多 类 问题 实例 ， 让 我 们 来 理解 数 独 图 像 。OCR (Optical Character Recognition, 
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光学 字符 识别 ) 是 一 个 理解 手写 或 机 写 文 本 图 像 的 处 理 过 程 。 一 个 第 见 的 例子 古 通 
过 扫描 文件 来 提取 文本 ， 例 如 书信 中 的 邮政 编码 或 者 谷歌 图 书 (http://books.google. 
com/) 里 图 书馆 卷 的 页 数 。 这 里 我 们 看 一 个 简单 的 在 打印 的 数 独 图 形 中 识别 数字 的 
OCR 问题 。 数 独 是 一 种 数字 逻辑 游戏 ， 规 则 是 用 数字 1~9 填 满 9 x9 的 网 格 ， 使 每 
一 行 每 一 列 和 每 个 3 x 3 的 子 网 格 包含 数字 1…9 。 在 这 个 例子 中 我 们 只 对 正确 地 读 
取 和 理解 它们 感 兴趣 ， 对 于 完成 识别 后 怎样 求解 这 些 数 独 问 题 我 们 就 留 给 你 。 





8.4.1 训练 分 类 器 

对 于 这 种 分 类 问题 ， 我 们 有 10 个 类 : 数字 1…9， 以 及 一 些 什 么 也 没有 的 单元 格 。 
我 们 给 定 什 么 也 没有 的 单元 格 的 类 标号 是 0， 这 样 所 有 类 标记 就 是 0…9。 我 们 会 用 
已 经 剪 切 好 的 数 独 单 元 格 数据 集 来 训练 一 个 10 类 的 分 类 器 “文件 sudoku_images.zip 
中 有 两 个 文件 夹 “ocr data” 和 “sudokus”， 后 者 包含 了 不 同 条 件 下 的 数 独 图 像 集 ， 
我 们 稍 后 讲解 。 现 在 我 们 主要 来 看 文件 夹 “ocr_data”， 这 个 文件 夹 包 含 了 两 个 子 文 
件 夹 ， 一 个 装 有 训练 图 像 ， 另 一 个 装 有 测试 图 像 。 这 些 图 像 文件 名 的 第 一 个 字母 是 
数字 (0…9) ， 用 以 标明 它们 属于 哪 类 。 图 8-6 展示 了 训练 集中 的 一 些 样本 。 图 像 是 
灰 度 图 ， 大 概 是 80 x 80 像素 (有 一 幅 波动 )。 











8.4.2 ”选取 特征 

我 们 首先 要 确定 选取 怎样 的 特征 癌 量 来 表示 每 一 个 单元 格 里 的 图 像 。 有 很 多 不 错 的 
选择 ， 这 里 我 们 将 会 用 某 些 人 简单 而 有 效 的 特征 。 输 入 一 个 图 像 ， 下 面 的 函数 将 返回 
一 个 拉 成 一 组 数组 后 的 灰 度 值 特征 问 量 : 








def compute feature(im) : 
""" 对 一 个 ocr 图 像 块 返回 一 个 特征 癌 量 """ 


# 调整 大 小 ， 并 去 除 边界 
norm im = imresize(im, (30,30)) 
norm im = norm _im[3:-3,3:-3] 


return norm_im.flatten() 


compute_feature() 图 数 用 到 imtools 模块 中 的 尺寸 调整 图 数 imresize()， 来 减少 特征 问 
量 的 长 度 。 我 们 还 修剪 掉 了 大 约 10% 的 边界 像素 ， 因 为 这 些 修 剪 掉 的 部 分 通 稍 是 网 
格 线 的 边缘 部 分 ， 如 图 8-6 所 示 。 





TE 1: 如 果 你 不 熟悉 该 概念 ， 更 多 细 市 参见 http://en.wikipedia.org/ wiki /Sudoku。 
注 2: KRÆ H Martin Byrod [4], http://www.maths.lth.se/matematikith/personal/byrod, #842, RITAK 
独 照 请。 
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8-6: 用 于 训练 10 类 数 独 OCR 分 类 器 的 训练 样本 图 像 
现在 我 们 用 下 面 的 函数 来 读 取 训 练 数据 : 


def load ocr data(path): 
"返回 路 径 中 所 有 图 像 的 标记 及 OCR 特征 "" 





# 对 以 .jpg 为 后 级 的 所 有 文件 创建 一 个 列表 

imlist = [os.path.join(path,f) for f in os.listdir(path) if f.endswith('.jpg') ] 
# 创建 标记 

labels = [int(imfile.split('/')[-1][0]) for imfile in imlist] 


# 从 图 像 中 创建 特征 
features = | 
for imname in imlist: 
im = array(Image.open(imname).convert('L')) 
features.append(compute_feature(im) ) 
return array(features), labels 


上 述 代 码 将 每 一 个 JPEG 文件 的 文件 名 中 的 第 一 个 字母 提取 出 来 做 类 标记 ， 并 且 这 
些 标 记 被 作为 整 型 数据 存储 在 lables 列表 里 ， 用 上 面 的 函数 计算 出 的 特征 向 量 存 储 
在 一 个 数组 里 。 


8.4.3 SERBS 
在 得 到 了 训练 数据 之 后 ， 我 们 接 下 来 要 学 习 一 个 分 类 器 ， 这 里 将 使 用 多 类 支持 向 量 
机 。 代 码 和 上 一 节 中 的 代码 类 似 ; 


from svmutil import * 


# 训练 数据 


features,labels = load ocr data('training/') 


# 测试 数据 
test features,test labels = load ocr data('testing/' ) 
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# 训练 一 个 线性 SVM 2 Bat 
features = map(list, features) 
test_features = map(list,test features) 


prob = svm problem(labels, features) 
param = svm parameter('-t 0') 


m = svm train(prob, param) 


# 在 训练 数据 上 分 类 效果 如 何 


res = svm predict(labels,features,m) 


# 在 测试 集 上 表现 如 何 


res = svm predict(test labels,test features,m) 


该 代码 会 训练 出 一 个 线性 SVM 分 类 如 ， 并 在 测试 集 上 对 该 分 类 融 的 性 能 进行 测试 ， 
你 可 以 通过 调用 最 后 两 个 sym predict() 函数 得 到 以 下 输出 结果 : 


Accuracy = 100% (1409/1409) (classification) 
Accuracy = 99.2979% (990/997) (classification) 


真是 一 个 极 好 的 结 末 ， 训 练 集中 的 1409 RERE 10 类 中 都 被 完美 地 分 准确 了 ， 在 
测试 集 上 识别 性 能 也 在 99% 左右 。 现 在 我 们 可 以 将 这 一 分 类 颖 用 到 经 过 裁 芯 的 新 数 
PERE. 


8.4.4 提取 单元 格 并 识别 字符 

有 了 识别 单元 格 内 容 的 分 类 右 后 ， 下 一 步 就 是 和 目 动 地 找到 这 些 单 元 格 。 一 旦 我 们 解 
决 了 这 个 同 题 ， 就 可 以 对 单元 格 进行 裁剪 ， 并 把 裁剪 后 的 单元 格 传 给 分 类 大。 我 们 
假设 数 独 图 像 是 已 经 对 齐 的 ， 其 水 平和 垂直 网 格 线 平 行 于 图 像 的 边 ， 如 图 8-7 所 示 。 
在 这 些 条 件 下 ， 我 们 可 以 对 图 像 进行 国 值 化 处 理 ， 并 在 水 平和 垂直 方 和 同上 分 别 对 像 
素 值 求 和 。 由 于 这 些 经 国 值 处 理 的 边界 值 为 1， 而 其 他 部 分 值 为 0， 所 以 这 些 边 界 处 
会 给 出 很 给 的 啊 应 ， 可 以 告诉 我 们 从 何 处 进行 裁剪 。 


下 面 函 数 接受 一 幅 灰 度 图 像 和 一 个 方向 ， 返 回 该 方向 上 的 10 条 边界 : 


from scipy.ndimage import measurements 





def find sudoku_edges(im, axis=0): 


""" 对 一 幅 对 齐 后 的 数 独 图 像 查找 单元 格 的 边界 """ 


# 立 值 处 理 ， 处 理 后 对 每 行列 ) 相 加 求 和 
trim = 1*(im<128) 


s = trim.sum(axis=axis) 


# 寻找 连通 域 





s labels,s nbr = measurements. label(s>(0.5*max(s))) 

# 计算 各 连通 域 的 质心 

m = measurements.center_ of mass(s,s labels, range(1,s_nbr+1) ) 
# 对 质心 取 整 ， 质 心 即 为 相 线条 所 在 位 置 

x = [int(x[0]) for x in m] 


# 只 要 检测 到 4 条 粗 线 ， 便 在 这 4 RAZR Zl SIZ 
if len(x)==4: 
dx = diff(x) 
x = [x[0],x[o]+dx[0]/3,x[0]+2*dx[0]/3, 
x[1],x[1]+dx[1]/3,x[1]+2*dx[1]/3, 
x[2],x[2]+dx[2]/3,x[2]+2*dx[2]/3,x[3]] 


if len(x)==10: 
return x 
else: 
raise RuntimeError('Edges not detected. ') 


首先 对 图 像 进 行 国 值 化 处 理 ， 对 灰 度 值 小 于 128 的 瞳 区 域 赋 值 为 1， 否 则 为 0; 
然后 在 特定 的 方向 上 (如 axis=0 或 1) hie HE ee (Bb E a (RS KR A 
Scipy.ndimage 包含 measurements 模块 ， 该 模块 在 二 进 制 或 标记 数组 中 对 于 计数 及 测 
量 区 域 是 非常 有 用 的 。 首 先 ，labels() 找 出 二 进 制 数组 中 相连 接 的 部 件 ， 该 二 进 制 
数组 是 通过 求 和 后 取 中 值 并 进行 国 值 化 处 理 得 到 的 。 然 后 ，center of mass() 函数 
计算 每 个 独立 组 件 的 质心 。 你 可 能 得 到 4 个 或 10 个 点 ， 这 主要 依赖 于 数 独 平 面 造 型 
设计 (所 有 的 线条 是 等 粗细 的 或 子 网 格 线条 比 其 他 的 粗 )。 在 4 个 点 的 情况 下 ， 会 以 
一 定 的 间隔 插入 6 条 直线 。 如 果 最 后 的 结果 没有 10 条 线 ， 则 会 抛 出 一 个 异常 。 


sudokus 文件 夹 里 包含 不 同 难 易 程 度 的 数 独 图 像 ， 每 幅 图 像 都 对 应 一 个 包含 数 独 真 
实 值 的 文件 ， 我 们 可 以 用 它 来 检查 识别 结 霖 。 有 一 些 图 像 已 经 和 图 像 的 边框 对 齐 ， 
从 中 挑选 一 幅 图 像 ， 用 以 检查 图 像 裁 药 及 分 类 的 性 能 : 

imname = 'sudokus/sudoku18. jpg’ 


vername = ‘sudokus/sudoku18. sud' 
im = array(Image.open(imname).convert('L')) 


+ 


查找 单元 格 边界 
x = find sudoku edges(im,axis=0) 
y = find sudoku edges(im,axis=1) 


# 裁剪 单元 格 并 分 类 
crops = [] 
for col in range(9): 
for row in range(9): 
crop = im[y[col]:y[col+1],x[row]:x[row+1] | 
crops.append(compute_feature(crop) ) 
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res = svm predict(loadtxt(vername) ,map(list, crops) ,m) [0] 
res im = array(res).reshape(9,9) 


print ‘Result:' 
print res im 


找到 边界 后 ， 从 每 一 个 单元 格 提取 出 crops。 将 裁剪 出 来 的 这 些 单元 格 传 给 同一 特 
征 提 取 函 数 ， 并 将 提取 出 来 的 特征 作为 训练 数据 保存 在 一 个 数组 中 。 通 过 loadtxt() 
读 取 数 独 图 像 的 真实 标记 ， 用 svm predict() 函数 对 这 些 特 征 癌 量 进行 分 类 ， 在 控制 
台 上 打印 出 的 结 采 应 该 为 : 


Accuracy = 100% (81/81) (classification) 


Result: 

[| Os: Ox Oe Oy 1s 7e Os 50 208] 
[ 9. 0. 3. 0. 0. 5. 2. 0. 7.4] 
[Os 0s On Os 0s Os 4.0, 0. 
[ Os 1. 6. 0. 0. 4. 0. 0. 2 ] 
[0 0s Oy. Ba 0s. 1 0s. 04.0, 
[ 8. 0. 0. 5. 0. 0. 6. 4. 0.] 
| Os, Ov Os. Os Os. On Oy. 04 0 
[ Te. 0 2 de Os 0. Ss. 0. Ge] 
[0 Sa Os 2 3. Os Os 0.051] 





1 FE set FL ED J ee 2 ts) A RR, te ee WOT — EE AY ie eh A BEATA, AIR 
AE WAAR Ata], LA Rear Ras EMBER HOT BL BE LR 


如 果 你 用 一 个 9x9 的 子 图 绘制 这 些 经 裁剪 后 的 单元 格 ， 它 们 应 该 和 图 8-7 GE) 类 似 。 




















| |1 7] [5 
9 3 | 5 |2 7 
| |4 
1 6 | 4 | 2 
|8 1 | 
8 |5 6 |4 
9 | | 
7 2 |1 |8 9 
5 2 3 | 
Number 26/10 Rating: Medium 











8-7; — MEHR AL SVAM KAMA HIS: 一 幅 数 独 网 格 图 像 ( 左 ); 9x9 裁剪 后 的 
图 像 ， 每 个 独立 单元 都 会 锌 送 到 OCR 分 类 器 中 ( 右 ) 





8.4.5 ”图 像 校正 


如 末 你 对 上 面 分 类 絮 的 性 能 还 算 满 间 ， 那 么 下 一 个 挑战 便 古 如 何 将 它 应 用 于 那些 没 
有 对 齐 的 图 像 。 这 里 我 们 将 用 一 种 简单 的 图 像 校正 方法 来 结束 本 章 数 独 图 像 识 别 的 
例子 ， 使 用 该 校正 方法 的 前 提 是 网 格 的 4 个 角 点 都 已 经 被 检测 到 或 者 手工 做 过 标记 。 
图 8-8 (Æ) 中 是 一 幅 在 进行 识别 时 受 角 度 影 响 剧 烈 的 图 像 。 


一 个 单 应 矩阵 可 以 像 上 面 的 例子 那样 映射 网 格 以 使 边 绿 能 够 对 齐 ， 我 们 这 里 所 要 做 
的 就 是 估算 该 变换 和 矩阵。 下面 的 例子 手工 标记 4 个 角 点 ， 然 后 将 图 像 变 换 为 一 个 
1000 x 1000 大 小 的 方形 图 像 : 


from scipy import ndimage 
import homography 


imname = 'sudoku8. jpg’ 
im = array(Image.open(imname).convert('L')) 


# 标记 角 点 
figure() 
imsshow(im) 
gray() 

x = ginput(4) 


# 左上 角 、 右 上 角 、 右 下 角 、 左 下 角 


fp = array([array([p[1],p[0],1]) for p in x]).T 
to = array (| 0y0;4.|(0. 100051.) :| 100071000, | T1000%0 1 | 


Hf EE Dy FADE 
H = homography.H from points(tp, fp) 





# 辅助 函数 ， 用 于 进行 几何 变换 
def warpfcn(x): 


< array xaxa] Ty 
XLS dot(H;x) 

xe = XT Kt? 

return xt[0],xt[1] 


# 用 全 透视 变换 对 图 像 进 行 变换 
im g = ndimage.geometric_transform(im,warpfcn, (1000, 1000) ) 


第 3 章 中 对 很 多 样本 图 像 进行 的 仿 射 变换 还 达 不 到 对 这 些 数 独 图 像 进行 校正 的 要 求 ， 这 
里 用 到 了 scipy.ndinmage 模块 中 一 个 更 加 普遍 的 变换 函数 geometric transform()， 该 函 
数 获 取 一 个 2D 到 2D 的 映射 ， 映 射 为 另 一 个 二 维 来 取代 变化 阜 阵 ， 所 以 我 们 需要 一 个 
辅助 函数 (该 例 中 用 一 个 三 角形 的 分 段 仿 射 变换 )， 变 换 后 的 图 像 如 图 8-8 中 右 图 所 示 。 
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图 8-8: 用 全 透视 变换 对 一 幅 图 像 进行 校正 的 例子 。 四 个 角 点 被 手工 标记 的 数 独 原 图 (42), 
变换 为 1000 x 1000 大 小 的 万 形 图 (4) 


这 就 是 整个 关于 数 独 图 像 识别 的 例子 。 其 中 还 有 很 多 可 以 改进 的 地 方 ， 及 一 些 待 调 
碍 的 识别 方案 。 下 面 的 练习 中 会 提 到 一 些 ， 剩 下 的 则 留 给 你 目 行 研究 。 


练习 


(1) KNN 分 类 絮 的 性 能 依赖 于 x 值 的 选择 。 试 着 改变 k 值 ， 看 分 类 精度 是 怎样 变化 
的 。 画 出 二 维 数据 集 的 决策 边界 ， 看 它们 是 怎样 变化 的 。 

(2) 图 8-3 中 的 手势 数据 库 文件 夹 complex/ 还 包含 背景 更 复杂 的 手势 图 像 。 试 着 在 
这 些 图 像 上 训练 出 一 个 分 类 絮 并 对 训练 出 的 分 类 如 进行 测试 。 它 们 在 性 能 上 有 什 
么 差异 ?” 你 能 够 对 图 像 拉 述 子 做 出 一 些 改进 吗 ? 

(3) 对 于 贝 叶 斯 分 类 器 ， 在 对 手势 识别 特征 进行 PCA 降 维 时 ， 试 着 改变 降 维 的 维 数 。 
哪 一 个 维 数 较 好 ? 画 出 奇异 值 8$， 画 出 的 曲线 如 图 8-9 所 示 ， 是 一 个 典型 的 膝 状 
曲线 。 在 训练 数据 生成 可 变性 能 力 和 保持 较 低 的 维 数 间 ， 一 个 较 好 的 折 中 是 在 图 
像 变 得 平缓 之 前 选取 一 个 恰当 的 维 数 。 

(4) 用 一 个 不 同 于 高 斯 分 布 的 概率 模型 修改 贝 叶 斯 分 类 器 ， 例 如 在 训练 集 上 对 于 每 个 
特征 使 用 频率 计数 ， 在 不 同 的 数据 集 上 和 高 斯 分 布 结果 进行 对 比 。 

(5) 用 非 线 性 SVM 对 于 手势 识别 问题 进行 实验 ， 比 如 选择 多 项 式 核 国 数 ， 并 用 -d 
参数 逐步 增加 多 项 式 的 阶 数 ， 观 察 在 训练 集 和 测试 集 上 分 类 性 能 的 变化 。 对 于 非 
线性 分 类 大， 存在 一 种 实在 的 风险 ， 即 在 某 个 特定 的 数据 集 上 ， 可 能 在 训练 集 上 
分 类 结果 很 好 ， 但 测试 集 上 分 类 结果 很 差 。 这 种 破坏 分 类 如 泛 化 能 力 的 现象 称 为 
过 拟 合 ， 我 们 应 该 避 开 这 种 风险 。 
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8-9: 练习 (3) 曲线 图 


(6) 试 着 在 数 独 字 符 识别 上 用 一 些 更 高 级 的 特征 辣 量 。 如 末 你 需要 灵感 ， 参 见 文献 [4]。 

(7) 实现 一 种 能 目 动 对 齐 数 独 网 格 的 方法 ， 例 如 试 着 用 RANSAC 进行 特征 检测 、 
进行 直线 检测 ， 或 从 scipy.ndimage (http://docs.scipy.org/doc/scipy/reference/ 
ndimage.html) 用 形态 学 和 训 量 操作 检测 这 些 单 元 格 。 另 外 ， 作 为 额外 的 任务 ， 
请 试 着 解决 查找 方 同 “向 上 ”的 旋转 不 确定 问题 。 比 如 ， 你 可 以 试 着 旋转 校正 后 
的 网 格 ， 并 以 OCR 分 类 器 的 分 类 准确 率 逻 出 最 佳 旋转 方 同 。 

(8) MNIST 手写 数字 数据 库 (http://yann.lecun.com/exdb/mnist) 是 一 个 比 数 独 数字 
图 像 库 更 具有 挑战 性 的 分 类 问题 。 试 着 提取 MNIST 数据 库 的 一 些 特征 ， 并 用 
SVM 对 该 数据 库 进 行 分 类 。 检 查 你 所 获得 的 分 类 准确 率 和 已 知 的 最 佳 分 类 方法 
(有 些 方法 出 奇 得 好 ) 之 间 差 距 。 

(9) 如 末 你 想 更 深入 地 了 解 分 类 絮 和 机 如 学 习 算 法 ， 可 以 参阅 scikit.learn 包 
(http://scikit-learn.org/)， 然 后 在 本 草 的 数据 库 上 尝试 其 中 的 一 些 算法 。 
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图 像 中 一 些 单 独 的 对 象 。 这 些 区 域 可 以 利用 一 些 诸如 颜色 、 边 界 或 近邻 相似 性 等 特 
征 进行 构建 。 本 草 中 ， 我 们 将 看 到 一 些 不 同 的 分 割 技术 。 


9.1 RJ (Graph Cut) 

obras (graph) 是 由 若干 节点 (有 时 也 称 顶点 ) 和 连接 节点 的 边 构成 的 集合 
9-1 给 出 了 一 个 示例 '。 边 可 以 是 有 向 的 (图 9-1 中 用 箭头 示 出 ) 或 无 向 的 ， 并且 

pei E 有 与 它们 相关 联 的 权重 。 





9-1: 用 python-graph 工具 包 创建 的 一 个 简单 有 向 图 





注 1: 2.3 而 中 也 出 现 过 图 。 这 次 我 们 要 使 用 图 进行 图 像 分 割 。 
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图 割 是 将 一 个 有 问 图 分 割 成 两 个 互 不 相交 的 集合 ， 可 以 用 来 解决 很 多 计算 机 视觉 方 
面 的 问题 ， 诸 如 立体 深度 重建 、 图 像 拼 接 和 图 像 分 割 等 计算 机 视 览 方面 的 不 同 癌 题 。 
从 图 像 像素 和 像素 的 近邻 创建 一 个 图 并 引入 一 个 能 量 或 “代价 ”函数 ， 我 们 有 可 能 
利用 图 割 方法 将 图 像 分 割 成 两 个 或 多 个 区 域 。 图 割 的 基本 思想 征 ， 相 似 且 彼此 相近 
的 像 桑 应 该 划分 到 同一 区 域 。 


图 割 CC 是 图 中 所 有 边 的 集合 ) 的 “代价 ”函数 定义 为 所 有 制 的 边 的 权重 求 合 相 加 : 





aa N (9.1) 


(i j)EC 
wy 古 图 中 市 点 i 到 市 点 j 的 边 (i, j) 的 权重 ， 并 且 是 对 割 C 所 有 的 边 进行 求 和 。 
图 制图 像 分 割 的 思想 是 用 图 来 表示 图 像 ， 并 对 图 进行 划分 以 使 制 代价 E 好 小。 在 


用 图 表示 图 像 时 ， 增 加 两 个 额外 的 市 态 ， 即 源 点 和 汇 点 ， 并 仅 壮 虑 那些 将 源 点 和 汇 
点 分 开 的 割 。 





寻找 最 小 着 (minimum cut 或 min cut) 等 同 于 在 源 点 和 汇 点 间 寻 找 最 大 流 (maximum 
flow 或 max flow)， 详 见 文 献 [2]。 些 外， 很 多 有 效 的 算法 都 可 以 解决 这 些 最 大 流 / 
最 小 割 问 题 。 


我 们 在 图 割 例 子 中 将 采用 python-graph 工具 包 ， 该 工具 包 包 含 了 许多 非常 有 用 的 图 
算法 ， 你 可 以 在 http://code.google.com/p/python-graph/ 下 载 该 工具 包 并 查看 文档 。 
随后 的 例子 里 ， 我 们 要 用 到 maximum_flow() 国 数 ， 该 国 数 用 Edmonds-Karp 算法 
(http://en.wikipedia.org/wiki/Edmonds-Karp_algorithm) 计算 最 大 流 / 最 小 割 。 采 用 
一 个 完全 用 Python 写成 工具 包 的 好 处 是 安装 容易 且 兼 容 性 民 好 ;不足 是 速度 较 慢 。 
不 过 ， 对 于 小 尺寸 图 像 ， 该 工具 包 的 性 能 足以 满足 我 们 的 需求 ， 对 于 较 大 的 图 像 ， 
需要 一 个 更 快 的 实现 。 


这 里 给 出 一 个 用 python-graph 工具 包 计 算 一 幅 较 小 的 图 的 最 大 流 /最 小 割 的 简单 例子 : 




















from pygraph.classes.digraph import digraph 
from pygraph.algorithms.minmax import maximum flow 


gr = digraph() 
gr.add nodes([0,1,2,3]) 


gr.add edge((0,1), wt=4) 
gr.add edge((1,2), wt=3) 
gr.add edge((2,3), wt=5) 
gr.add edge((0,2), wt=3) 





注 1: http://en.wikipedia.org/wiki/Max-flow_min-cut_theorem 上 有 相同 的 图 作为 例子 。 
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gT.add edge((1,3), wt=4) 


flows,cuts = maximum flow(gr, 0,3) 
print ‘flow is:', flows 
Print wut los. cuts 


aot, 创建 有 4 个 市 点 的 有 问 图 ，4 个 市 点 的 索引 分别 0...3， 然 后 用 add edge() 增 
添 边 并 为 每 条 边 指 定 特定 的 权重 。 边 的 权重 用 来 衡量 边 的 最 大 流 容量 。 以 节点 0 为 
源 点 、3 为 汇 点 ， 计 算 最 大 流 。 打 印 出 流 和 制 结果 : 

Fow Te AOs A Ae (to ZE Be ds aa aa Or Des 3 

CUE se 770 Os. "15 23.15 3 at 


上 面 两 个 python 字典 包含 了 流 穿 过 每 条 边 和 每 个 节点 的 标记 : 0 是 包含 图 源 点 的 部 
D, 是 与 汇 点 相连 的 节点 。 你 可 以 手工 验证 这 个 割 确实 是 最 小 的 。 参 见 图 9-1, 


9.1.1 MAREE E 

25 EP AB, RRMA AAR RAEA DRE XLT A. KERIB 
中 讨论 最 简单 的 像素 四 邻 域 和 两 个 图 像 区 域 〈 前 景 和 背景 ) 情况 。 一 个 四 邻 域 
(4-neighborhood) 指 一 个 像素 与 其 正 上 方 、 正 下 方 、 左 边 、 右 边 的 像素 直接 相连 。 


除了 像素 证 护 外 ， 我 们 还 知 要 两 个 特定 鸭 市 尽 一 一 源 所 和 汇 点 ,来 分 别 代表 
图 像 的 前 景 和 背景 。 我 们 将 利用 一 个 简单 的 模型 将 所 有 像素 与 源 点 、 汇 点 连接 起 来 。 
下 面 给 出 创建 这 样 一 个 图 的 步 又: 

。 每 个 像素 革 氮 都 有 一 个 从 源 扣 的 传人 辽 ， 


过 
。 每 个 像素 习 扩 都 有 一 个 到 汇 点 的 传 出 边 ， 
。 每 个 像素 习 点 都 有 一 条 传人 边 和 传 出 边 连接 到 它 的 近邻 。 


为 确定 边 的 权重 ， 需 要 一 个 能 够 确定 这 些 像素 点 之 间 ， 像 素 点 与 源 点 、 汇 点 之 间 边 
的 权重 (表示 那 条 边 的 最 大 流 ) 的 分 割 模型 。 与 前 面 一 样 ， 像 素 i 与 像素 j 之 间 的 边 
的 权重 记 为 w WARRE i 的 权重 记 为 wio RR i BULA ILA Wo 


让 我 们 先 回 顾 一 下 8.2 市 中 在 像素 颜色 值 上 用 杆 素 贝 叶 斯 分 类 如 进行 分 类 的 知识 。 假 定 
我 们 已 经 在 前 景 和 背景 像素 (从 同一 图 像 或 从 其 他 的 图 像 ) 上 训练 出 了 一 个 贝 叶 斯 分 
Bat, BAA AAS A Se LP RES pd) F pd) KE, LRR i AMEE. 


现在 我 们 可 以 为 边 的 权重 建立 如 下 模型 : 





























HE 1: 男 一 个 第 见 的 选择 是 八 邻 域 ， 它 把 对 角 上 的 像素 也 连结 起 来 了 。 
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pr (I) 


We 
pr (i) + pall) 

w, = Pal) 
pr (5) + pall) 

w= K el -LiPle 





利用 该 模型 ， 可 以 将 每 个 像素 和 前 景 及 背景 CUAL) 连接 起 来 ， 权 重 等 于 上 
面 归 一 化 后 的 概率 。vw 描述 了 近邻 辣 像素 的 相似 性 ， 相 似 像 素 权 重 趋 近 于 k， 不 相 
似 的 趋 近 于 0。 参 数 表征 了 随 着 不 相似 性 的 增加 ， 指 数 次 需 袁 减 到 0 的 快慢 。 
创建 一 个 名 为 graphcut.py 的 文件 ， 将 下 面 从 一 幅 图 像 创建 图 的 函数 写 入 该 文件 中 : 


from pygraph.classes.digraph import digraph 
from pygraph.algorithms.minmax import maximum flow 


import bayes 
def build bayes graph(im,1abels,sigma=1e2,kappa=2): 


"e 从 像素 四 邻 域 建立 一 个 图 ， 前 景 和 背景 (前景 用 1 标记， 背景 用 -1 标记 ， 
其 他 的 用 0 标记 ) 由 labels 决定 ， 并 用 朴素 贝 叶 斯 分 类 器 建 模 """ 





m,n = im.shape|[ :2] 


# 每 行 是 一 个 像素 的 RGB ME 
vim = im.reshape((-1,3)) 





# 前 景 和 背景 (RGB) 

foreground = im[labels==1].reshape((-1, 3)) 
background = im[labels==-1].reshape((-1,3)) 
train data = [ foreground, background] 


# WIAA Se WT ad Rat 
bc = bayes.BayesClassifier() 
bc.train(train data) 


# 获取 所 有 像素 的 概率 
bc_lables,prob = bc.classify(vim) 
prob fg = prob[0] 

prob bg = prob[1] 


# 用 mxn+2 个 市 点 创建 图 
gr = digraph() 
gr.add nodes(range(m*n+2)) 





source = m*n # 倒数 第 二 个 是 源 点 
sink = m*n+1 # 最 后 一 个 节点 是 汇 点 


相同 二 
for i in range(vim.shape[0]): 
vim[i] = vim[i] / linalg.norm(vim[i]) 


tin AAA, FRIMA 
for i in range(m*n): 
# 从 源 点 添加 边 
gr.add edge((source,i), wt=(prob fg[i]/(prob fg[i]+prob bg[i]))) 


# IL aS 
gr.add edge((i,sink), wt=(prob_bg[i]/(prob fg[i]+prob bg[i]))) 


# IAFL SDs AAS I 

if i%n l= 0: # 左 边 存在 
edge wt = kappa*exp(-1.0*sum((vim[i]-vim[i-1])**2)/sigma) 
gT.add edge((i,i-1), wt=edge wt) 

if (i+1)%n l= 0: # 如 果 右 边 存 在 
edge wt = kappa*exp(-1.0*sum((vim[i]-vim[i+1])**2)/sigma) 
gr.add edge((i,i+1), wt=edge wt) 

if i//n != 0: 如 果 上 方 存在 
edge wt = kappa*exp(-1.0*sum((vim[i]-vim[i-n])**2)/sigma) 
gr.add edge((i,i-n), wt=edge wt) 

if i//n != m-1: # 如 果 下 方 存在 
edge wt = kappa*exp(-1.0*sum((vim[i]-vim[i+n])**2)/sigma) 
gr.add edge((i,it+n), wt=edge wt) 


return gr 


这 里 我 们 用 到 了 用 1 标记 前 景 训练 数据 、 用 -1 标记 背景 训练 数据 的 一 幅 标 记 图 像 。 
基于 这 种 标记 ， 在 RGB 值 上 可 以 训练 出 一 个 朴素 贝 叶 斯 分 类 左 ， 然 后 计算 每 一 像 
素 的 分 类 概率 ， 这 些 计算 出 的 分 类 概率 便 是 从 源 点 出 来 和 到 汇 点 去 的 边 的 权重 ， 由 
此 可 以 创建 一 个 市 点 为 nxXm+2 的 图 。 注 意 源 点 和 汇 点 的 索引 ， 为 了 简化 像素 的 索 


51|， 我 们 将 最 后 的 两 个 索引 | 作为 源 扣 和 汇 点 的 过 51。 


为 了 在 图 像 上 可 视 化 覆盖 的 标记 区 域 ， 我 们 可 以 利用 contourf() 国 数 填充 图 像 (这 





里 指 市 标记 图 像 ) 等 高 线 间 的 区 域 ， 参 数 alpha 用 于 设置 透明 度 。 将 下 面 国 数 增 加 


到 graphcut.py 中 : 


def show labeling(im, labels): 





""" 显示 图 像 的 前 景 和 背景 区 域 。 前 景 labels=1, 背景 labels=-1, fh labels = 0 """ 





imshow(im) 

contour(labels,[-0.5,0.5]) 
contourf(labels,[-1,-0.5],colors='b' ,alpha=0. 25) 
contourf(labels,[0.5,1],colors='r',alpha=0.25) 
axis('off') 








图 建立 起 来 后 便 需 要 在 节 优 位 置 对 图 进行 分 割 。 下 面 这 个 国 数 可 以 计算 最 小 割 并 将 
和 输出 结 东 重 新 格式 化 为 一 个 市 像素 标记 的 二 值 图 像 : 





def cut_graph(gr, imsize): 
“" 用 最 大 流 对 图 gr 进行 分 割 ， 并 返回 分 制 结果 的 二 值 标记 """ 


m,n = imsize 
source = m*n # 倒数 第 二 个 节点 是 源 点 
sink = m*n+1 # 倒数 第 一 个 是 汇 点 





# 对 图 进行 分 割 
flows,cuts = maximum flow(gr, source, sink) 





# 将 图 转 为 带 有 标记 的 图 像 

res = zeros(m*n) 

for pos,label in cuts.items()[:-2]: # 不 要 添加 源 点 / 汇 点 
res[|pos] = label 


return res.reshape((m,n)) 


wid ee FE ORE RUA ALL RA 8 D Bee RAR TE A TA KR TRER, 
FER [Bl oy GAS ZH EO ay RET reshape() 操作 。 割 以 字典 返回 ， 需 要 将 它 
复制 到 分 割 标 记 图 像 中 ， 这 通过 返回 列表 (E, E) 的 .item() 方法 完成 。 这 里 我 
们 再 一 次 略 过 了 列表 中 最 后 两 个 元 率 。 


现在 让 我 们 看 看 怎 冬 利用 这 些 国 数 来 分 割 一 幅 图 像 。 下 面 这 个 例子 会 谈 取 一 幅 图 像 ， 
从 图 像 的 两 个 矩形 区 域 估算 出 类 概率 ， 然 后 创建 一 个 图 : 





from scipy.misc import imresize 
import graphcut 


im = array(Image.open('empire.jpg' ) ) 
im = imresize(im,0.07,interp='bilinear' ) 
size = im.shape|[ :2] 


# 添加 两 个 矩形 训练 区 域 
labels = zeros(size) 
labels[3:18,3:18] = -1 





labels[-18:-3,-18:-3] = 1 


# 创建 图 
g = graphcut.build bayes graph(im,1abels,kappa=1) 


# 对 图 进行 分 割 
res = graphcut.cut_graph(g,size) 


figure() 
graphcut.show labeling(im, labels) 


figure() 
imshow(res) 


gray() 
axist off) 


show() 


我 们 利用 了 imresize() 图 数 使 图 像 小 到 适合 我 们 的 Python graph 库 ;， 在 该 例 中 将 图 
像 统 一 缩放 到 原 图 像 尺 寸 的 7%。 图 分 割 后 将 结果 和 训练 区 域 一 起 画 出 来 。 图 9-2 中 
图 像 履 盖 区 域 为 训练 区 域 并 显示 出 了 最 终 的 分 割 结果 。 


图 9-2: 利用 贝 叶 斯 概率 模型 进行 图 割 分 割 。 图 像 降 采样 (downsample) 到 54 x 38 AN, 
用 于 模型 训练 的 标记 图 像 (E); 在 待 分 割 图 像 上 显示 训练 区 域 (P); 分 割 的 结果 (6) 


变量 kappa (方程 中 的 K) 决定 了 近邻 像素 间 边 的 相对 权重 。 改 变 玉 值 分 割 的 效 末 
如 图 9-3 所 示 ; 随 着 K 值 增 大 ,分 割 边 界 将 变 得 更 平 消 ， 并 且 细 广 部 分 也 逐步 丢失 。 
你 可 以 根据 目 己 应 用 的 需要 及 想 要 获得 的 结 霖 类 型 来 选择 合适 的 KK 值 。 
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(a) (b) (c) (d) 


9-3: 改变 像素 相似 性 和 类 概率 之 间 相 对 权重 对 分 割 结果 的 影响 ， 采 用 的 分 割 方法 与 图 9-2 
相同 : (a) k=1, (b) k=2, (c) k=5, (d) k=10 











91.2 AABN 

利用 一 些 方法 可 以 将 图 割 分 割 与 用 户 交 互 结合 起 来 。 例 如 ， 用 户 可 以 在 一 幅 图 像 上 
为 前 景 和 背景 提供 一 些 标 记 。 男 一 种 方法 是 利用 边界 框 (bounding box) 或 “lasso” 
工具 选择 一 个 包含 前 景 的 区 域 。 


让 我 们 来 看 最 后 一 个 例子 ， 其 中 用 到 了 来 目 微软 剑桥 研究 院 Grab Cut 数据 集 的 一 些 
图 像 ， 详 见 文献 [27] 和 附录 B.S. 

这 些 图 像 还 提供 了 用 来 评价 分 割 性 能 的 真实 标记 ， 还 有 模拟 用 户 选 择 算 形 图 像 区 域 
或 用 “lasso” 之 类 的 工具 来 标记 前 景 和 背景 的 标注 信息 。 我 们 可 以 利用 这 些 用 户 提 
供 的 输入 来 得 到 训练 数据 ， 并 以 用 户 输 入 为 导向 用 切 制 对 图 像 进 行 分 割 |。 


将 用 户 输 入 编码 成 具有 下 面 意 义 的 位 图 图 像 : 














像素 值 a 
0, 64 背景 
128 未 知 
255 前 景 


这 里 给 出 一 个 完整 的 示例 代码 ， 它 会 载 入 一 幅 图 像 及 对 应 的 标注 信息 ， 然 后 将 其 传 
递 到 我 们 的 图 割 分 割 路 径 中 : 
from scipy.misc import imresize 


import graphcut 


def create msr labels(m, lasso=False): 





”从 用 户 的 注释 中 创建 用 于 训练 的 标记 和 撼 阵 "” 


labels = zeros(im.shape[ :2]) 
# 背景 

labels[m==0] = -1 
labels[m==64] = -1 


# 前 景 
if lasso: 
labels[m==255 | 
else: 
labels [m==128 | 


II 
m. 


II 
m 


return labels 


# 载 和 图像 和 注释 图 
im = array(Image.open('376043.jpg')) 
m = array(Image.open('376043.bmp' )) 


# 调整 大 小 

scale: S01 

im = imresize(im, scale, interp='bilinear' ) 
m = imresize(m,scale, interp='nearest' ) 


# 创建 训练 标记 


labels = create msr labels(m,False) 


# 用 注释 创建 图 


g = graphcut.build bayes graph(im,1abels,kappa=2) 


# 图 割 | 
res = graphcut.cut graph(g,im.shapel[:2]) 


res[m==64] = 1 


# 绘制 分 割 结 采 
figure() 
imshow(res ) 


gray() 
xCiekstL 


yticks([]) 
savefig('labelplot.pdf') 
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首先 ， 我 们 定义 一 个 辅助 函数 用 以 读 取 这 些 标 注 图 像 ， 格 式 化 这 些 标注 图 像 便于 将 
其 传递 给 背景 和 前 景 训练 模型 函数 ， 和 矩形 框 中 只 包 仿 背景 标记 。 在 本 例 中 ， 我 们 设 
置 前 景 训练 区 域 为 整个 “未 知 的 ”区 域 ( 算 形 内 部 )。 下 一 步 我 们 创建 图 并 分 割 。 由 
于 有 用 户 输 入 ， 所 以 我 们 移 除 那些 在 标记 背景 区 域 里 有 任何 前 景 的 结果 。 最 后 ， 我 
们 绘制 出 分 割 结 琳 ， 并 通过 设置 这 些 勾 选 标记 到 一 个 空 列表 来 移 去 这 些 义 选 标 记 。 
这 样 我 们 就 可 以 得 到 一 个 很 好 的 边框 (否则 ， 图 像 中 的 边界 在 淋 白 图 中 很 难看 到 )。 


9-4 显示 了 利用 RGB 回 量 作为 原始 图 像 的 特征 进行 分 割 的 一 些 结 采 ， 一 个 下 采样 
掩 膜 和 下 采样 分 割 结 末 。 右 边 的 图 像 征 通过 上 面 的 脚本 生成 的 图 线 。 














RS 




















9-4: 利用 Grab cut 数据 集中 的 图 像 进行 图 割 分 割 的 结果 : 经 过 下 采样 后 的 原始 图 像 ( 左 ); 
用 于 训练 的 掩 膜 (中 间 ) ; (6) 将 用 RGB 像素 值 作 为 特征 向 量 进 行 分 割 后 的 结 


>L. * i, ri 
9.2 MA RRATH al 
上 一 市 的 图 荐 问题 通过 在 图 像 的 图 上 利用 最 大 流 / 最 小 割 找到 了 一 种 离散 解决 方案 。 
在 本 市 ， 我 们 将 看 到 另外 一 种 分 割 图 像 图 的 方法 ， 即 基于 谱 图 理论 的 归 一 化 分 割 算 
法 ， 它 将 像 系 相 似 和 空间 近似 结合 起 来 对 图 像 进行 分 割 。 














AER ELTIR BB, AR AAAI SE SA AC) if EEH > 
的 大 小 对 该 损失 函数 进行 “ 归 一 化 ”。 该 归 一 化 后 的 分 割 公 式 将 方程 (9.1) 中 分 割 
损失 函数 修改 为 : 





AMI BRAT HE, HEALS AM BHA (RAE “IA 
化 ”这 里 指 图 像 像 素 ) 的 权重 求 和 相 加 ， 相 加 求 和 项 称 为 association。 对 于 那些 像 
素 与 其 他 像素 具有 相同 连接 数 的 图 像 ， 它 是 对 划分 大 小 的 一 种 粗糙 度量 方式 。 文 献 
[32] 介绍 了 上 面 的 损失 国 数 与 寻找 极 小 值 算 法 。 该 算法 是 针对 两 类 分 割 问题 衍生 出 
来 的 ， 将 在 下 面 进行 讲解 。 

定义 夯 为 边 的 权重 矩阵 ， 算 阵 中 的 元 素 w 为 连接 像素 i 和 像素 j 边 的 权重 。D 为 对 


丈 每 行 元 系 求 和 后 构成 的 对 角 怎 阵 ， 即 D=diag(4d)，4 = > wj (和 6.3 市 中 一 样 )。 
归 一 化 分 割 可 以 通过 节 小 化 下 面 的 优化 问题 而 求 得 : 











min Aa W)y 
y y Dy 
器 量 y 包 含 的 是 离散 标记 ， 这 些 离 散 标 记 满 足 对 于 5 为 常数 yyE {1,-5} (Bly Ray 
以 取 这 两 个 值 ) 的 约束 ，yD 求 和 为 0。 由 于 这 些 约束 条 件 ， 该 问题 不 太 容 易 求解 。 


然而 ， 通 过 松弛 约束 条 件 并 让 y 取 任 意 实 数 ， 该 问题 可 以 变 为 一 个 容 多 求解 的 特征 
分 解 问 题 。 这 样 求解 的 缺点 是 你 需要 对 和 输出 设 定 装 值 或 进行 聚 类 ， 使 它 重 新 成 为 一 
AARD 


松弛 该 回 题 后 ， 该 问题 便 成 为 求解 拉 普 拉 斯 矩阵 特征 癌 量 问题 : 





L Z DY wp” 


正如 谱 聚 类 情形 一 样 ， 现 在 的 难点 是 如 何 定义 像素 间 边 的 权重 w。 归 一 化 割 与 谱 聚 
类 有 很 多 相似 之 处 ， 并 且 基 础 理论 有 所 重 登 ， 具体 解释 及 细 广 参阅 文献 [32]。 
我 们 利用 原始 归 一 化 割 论文 [32] 中 的 边 的 权重 ， 通 过 下 式 给 出 连接 像素 i 和 像素 j 
的 边 的 权重 : 

wW; = eA: els- /oe 


式 中 第 一 部 分 度量 像素 1; 和 了 之 间 的 像素 相似 性 ，1(7) 定义 为 RGB 癌 量 或 灰 度 值 ， 


TE 1: 事实 上 ， 这 是 一 个 NP 问题 。 
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第 二 部 分 度量 图 像 中 x, 和 x, 的 接近 程度 ，x(c) 定义 为 每 个 像素 的 坐标 矢量 ， 缩 放 因 
T o, 和 四 决定 了 相对 尺度 和 每 一 部 件 趋 近 0 的 快慢 。 


让 我 们 看 看 这 在 代码 中 如 何 体现 ， 将 下 面 的 函数 添加 到 名 为 ncut.py 的 文件 中 : 











def ncut_graph_matrix(im,sigma d=1e2,sigma g=1e-2): 
"" 创建 用 于 归 一 化 割 的 矩阵， 其 中 sigma d 和 sigma g 是 像素 距离 和 像素 相似 性 的 权重 参数 """ 


m,n = im.shape|[ :2] 
N = m*n 





# 归 一 化 ， 并 创建 RGB 或 灰 度 特征 向 量 
if len(im.shape)== 
for i in range(3): 
TM ol HS A | Pati ete mea) 
vim = im.reshape((-1,3)) 
else: 
im = im / im.max() 
vim = im.flatten() 





E x,y 坐标 用 于 距离 计算 
xx,yy = meshgrid(range(n),range(m)) 
x,y = xx.flatten(),yy.flatten() 


# 创建 边线 权重 矩阵 
W = zeros((N,N),'f') 
for i in range(N): 
for j in range(i,N): 
d = (x[i]-x[j])**2 + (y[i]-y[j])**2 
W[i,j] = WEj,i] = exp(-1.0*sum((vim[i]-vim[j])**2)/sigma_g) * exp(-d/sigma d) 


return W 


ee 并 利用 输入 的 彩色 图 像 RGB 值 或 灰 度 图 像 的 灰 度 值 创 建 一 

千 征 问 量 。 由 于 边 的 权重 包含 了 距离 部 件 ， 对 于 每 个 像素 的 特征 癌 量 ， 我 们 利用 
和 函数 来 获取 x 和 yy (EL, PASTA RELATE NTR EDD, FETE NX NIA 
AEREE 万 中 填充 值 。 


我 们 可 以 顺序 分 割 每 个 特征 向 量 或 获取 一 些 特征 向 量 对 它们 进行 聚 类 来 计算 分 割 结 
Ke. 这 里 wy 它 不 需要 修改 任意 分 割 数 也 和 全 SEALE. RE an Ee hi TFB 
E 并 在 一 起 构成 矩阵 W, FAN ERR E 

聚 类 。 下 面 国 数 实现 了 该 聚 类 过 程 ， 可 以 看 到 ， 它 和 6.3 节 的 谱 聚 类 例子 几乎 是 
ny 











from scipy.cluster.vq import * 


def cluster(S,k,ndim): 
""" 从 相似 性 矩阵 进行 谱 聚 类 """ 


# 检查 对 称 性 
if sum(abs(S-S.T)) > 1e-10: 
print ‘not symmetric’ 


# 创建 拉 普 拉 斯 矩阵 


rowsum = sum(abs(S),axis=0) 





D = diag(1 / sqrt(rowsum + 1e-6)) 
Ls dott); dot Dh 


# 计算 L 的 特征 癌 量 
U,sigma,V = linalg.svd(L) 


# 从 前 ndim 个 特征 癌 量 创建 特征 问 量 
# 堆 营 特 征 问 量 作为 矩阵 的 列 
features = array(V[:ndim]).T 


# K-means RÆ 

features = whiten(features ) 
centroids,distortion = kmeans(features ,k) 
code,distance = vq(features, centroids) 


return code,V 


这 里 我 们 采用 基于 特征 向 量 图 像 值 的 K-mean 聚 类 算法 (细节 参见 61) 对 像素 
进行 分 组 。 如 果 你 想 对 该 结果 进行 实验 ， 可 以 采用 任 一 聚 类 算法 或 分 组 准则 。 


现在 我 们 可 以 利用 该 算法 在 一 些 样 本 图 像 上 进行 测试 。 下 面 的 脚本 展示 了 一 个 完整 
的 例子 : 





import ncut 
from scipy.misc import imresize 


im = array(Image.open('C-uniform03.ppm' ) ) 
m,n = im.shape[:2]| 





# 调整 图 像 的 尺寸 大 小 为 (wid,wid) 

wid = 50 

rim = imresize(im, (wid,wid), interp='bilinear' ) 
rim = array(rim, 'f') 
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# 创建 归 一 化 割 和 矩阵 


A = ncut.ncut graph matrix(rim,sigma d=1,sigma g=1e-2) 


# 聚 类 
code,V = ncut.cluster(A,k=3,ndim=3) 


# 变换 到 原来 的 图 像 大 小 


codeim = imresize(code.reshape(wid,wid),(m,n),interp='nearest' ) 


# 绘制 分 割 结 东 
figure() 
imshow(codeim) 


gray() 
show() 


因为 Numpy 的 Linanlg.svd() 国 数 在 处 理 大 型 矩阵 时 的 计算 速度 并 不 够 快 《 有 时 对 
于 太 大 的 矩阵 其 至 会 给 出 不 准确 的 结果 )， 所 以 这 里 我 们 重新 设 定 图 像 为 一 固定 尺 
寸 (在 该 例 中 为 50 x 50), 以便 更 快 地 计算 特征 问 量 。 在 重新 设 定 图 像 大 小 的 时 候 
我 们 采用 了 双 线 性 插值 法 ， 因 为 不 想 插入 类 标记 ， 所 以 在 重新 调整 分 割 结 末 标 记 图 
像 的 尺寸 时 我 们 采用 近邻 插值 法 。 注 意 ， 重 新 调整 到 原 图 像 尺 寸 大 小 后 党 一 次 利用 
reshape 方法 将 一 维和 矩阵 变换 为 (widq，wid) 二 维 数组 。 


在 该 例 中 ， 我 们 用 到 了 静态 手势 (Static Hand Posture) 数据 库 ( 详 见 8.1) WA 
幅 手 势 图 像 ， 并 且 聚 类 数 大 设置 为 3。 分 割 结 果 如 图 9-5 所 示 ， 取 前 4 个 特征 向量 。 

















图 9-5: 利用 归 一 化 分 割 算法 分 割 图 像 : 原始 图 像 和 三 类 分 割 结 果 (上) ， 图 相似 息 阵 的 前 4 
个 特征 向 量 (下 ) 





(FFP PIE Te ee AAH Vel, ay ae Py FCS By at A AR : 
imshow(imresize(V[i].reshape(wid,wid),(m,n),interp=' bilinear’ )) 
它 以 原 图 像 尺 寸 将 特征 问 量 i 显示 为 一 幅 图 像 。 


9-6 是 一 些 利 用 上 面 脚本 进行 分 割 的 示例 。 飞 机 图 像 来 源 于 Caltech 101 数据 库 中 
的 飞机 类 。 在 这 些 例子 中 ， 我 们 保持 参数 o, 和 与 上 面 一 致 ， 改 变 这 两 个 参数 的 
值 可 以 得 到 更 平 请 、 更 规则 的 结果 和 不 同 的 特征 向 量 图 像 。 我 们 将 这 个 实验 留 给 你 

















图 9-6: 利用 规范 化 分 割 算 法 对 两 类 图 像 分 割 示例 : 原始 图 像 (AW), 分割 结果 (OW) 


和 注意， 即使 对 于 这 些 相 对 简单 的 例子 ， 对 图 像 进行 国 值 处 理 不 会 给 出 相同 的 结案 ， 
对 RGB 值 或 灰 度 值 进行 容 类 也 一 样 ， 原 因 古 它们 都 没有 旁 虑 像素 的 近邻 。 
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9.3 Bai 

在 本 书 中 有 很 多 利用 最 小 化 代价 函数 或 能 量 函 数 来 求解 计算 机 视觉 问题 的 例子 ， 如 
前 面 章节 中 在 图 中 最 小 化 割 ， 我 们 同样 可 以 看 到 诸如 ROF BRR, K-means 和 SVM 
的 例子 ， 这 些 都 是 优化 问题 。 


当 优 化 的 对 象 是 国 数 时 ， 该 问题 称 为 变 分 问题 ， 解 决 这 类 问题 的 算法 称 为 变 分 法 。 
我 们 看 一 个 简单 而 有 效 的 变 分 模型 。 

Chan-Vese 分 割 模型 [6] 对 于 竺 分割 图 像 区 域 假定 一 个 分 厂 背 数 图 像 模 型 。 这 里 我 们 
集中 关注 两 个 区 域 的 情形 ， 比 如 前 景 和 和 背景， 不 过 这 个 模型 也 可 以 拓展 到 多 区 域 ， 
比如 文献 [38] 中 的 例子 。 我 们 接 下 来 对 该 模型 进行 描述 。 

如 采 我 们 用 一 组 曲线 工 将 图 像 分 离 成 两 个 区 域 2 和 9， 如 图 9-7 所 示 ， 分 割 是 通 
过 最 小 化 Chan-Vese 模型 能 量 男 数 给 出 的 : 











E(T) = å length (T) + | (I—c)?dx + | (I—c)*dx 


该 能 量 函 数 用 来 度量 与 内 部 平均 灰 度 常数 c, POY DP YA BE BL cy 的 偏差 。 这 里 这 
两 个 积分 是 对 各 目 区 域 的 积分 ,分 离 曲线 T 工 的 长 度 用 以 选择 更 平 消 的 方案 。 











9-7; 分 片 常数 Chan-Vese 分 割 模型 


由 分 片 党 数 图 像 U=X,c thc, 我 们 可 以 将 上 式 重 写 为 : 


ET) = AS! f\vulax+|r- UF 


Xi All yo AEP EK O, Q 的 特征 (指示) 函数 '。 该 变换 意义 重大 ， 要 求 一 些 并 不 需 
要 理解 的 复杂 数学 运算 ， 并 且 已 超出 本 书 的 讲述 范围 。 


注 1: 区 域内 特征 函数 为 1， 区 域外 特征 函数 为 0。 
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如 果 用 Alce) 替换 ROF 方程 (1.1) 中 的 4， 则 该 方程 与 ROF 方程 (1.1) 的 形式 一 致 ， 
唯一 的 区 别 在 于 ， 我 们 Chan-Vese 模型 中 在 寻找 一 幅 具 有 分 片 常 数 的 图 像 V。 对 
ROF 方案 进行 间 值 处 理 可 以 给 出 一 个 好 的 极 小 值 ， 感 兴趣 的 读者 可 以 在 文献 [8] 中 
4 [be] 213 。 


最 小 化 Chan-Vese 模型 现在 转变 成 为 设 定 国 值 的 ROF 降 噪 问题 
import rof 


im = array(Image.open('ceramic-houses t0.png').convert("L")) 
U,T = rof.denoise(im, im, tolerance=0.001) 
t = 0.4 # 国 值 


import scipy.misc 
scipy.misc.imsave('result.pdf',U < t*U.max()) 


在 该 示例 中 ， 为 确保 得 到 足够 的 迭代 次 数 ， 我 们 调 低 ROF 迭代 终止 时 的 容忍 辆 值 。 
图 9-8 显示 了 两 幅 难 以 分 制图 像 的 分 割 结 果 。 














ais ae | \yaham anna 
> TT 


OTT 


YE 


图 9-8: 利用 ROF 降 品 最 小 化 Chan-Vese 模型 的 一 些 图 像 分 割 示例 : (a) 为 原始 图 像 ，(b) 
为 经 过 ROF 降 噪 后 的 图 像 ，(c) 为 最 终 分 割 结 
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练习 


(1) 通过 减少 边 的 数目 可 以 加 速 图 割 优 化 计算 ;文献 [16] 的 4.2 区 描述 了 图 的 构建 过 
程 。 对 其 进行 实验 并 在 图 不 同 的 大 小 下 度量 其 差异 ， 以 及 对 分 割 时 间 的 影响 ， 并 
与 我 们 之 前 用 到 的 较 人 简单 图 结构 进行 比较 。 

(2) 创建 一 个 用 户 接 口 或 模拟 用 户 先 择 区 域 来 进行 图 割 ， 然 后 通过 给 一 些 较 大 的 值 设 
置 权 重 尝 试 “ 硬 编码 ”背景 和 前 景 。 

(3) 在 图 割 时 将 RGB 特征 同 量 换 成 别 的 特征 摘 述 子 ， 你 能 以 此 改进 分 割 结 采 吗 ? 

(4) 用 图 割 方法 将 当前 分 割 结 采用 于 训练 下 一 个 新 的 前 景 和 育 景 模型 ， 实 现 一 种 迭代 
分 割 方法 。 这 样 能 够 提高 分 割 质 量 吗 ? 

(5) 微软 研究 院 Grab Cut 数据 集 包 仿真 实 的 分 割 图 。 实 现 一 个 可 以 度量 分 割 误差 的 
冰 数 ， 并 对 不 同 的 设置 以 及 前 面 练习 中 的 一 些 想法 进行 评估 。 

(6) 改变 归 一 化 的 制 边 的 权重 参数 ， 观 妈 其 如 何 影 响 特征 癌 量 图 像 ， 以 及 分 割 的 结 琳 。 

(7) 在 第 一 次 归 一 化 割 的 特征 癌 量 上 计算 图 像 梯度 ， 合 并 这 些 梯度 图 像 来 检测 图 像 中 
物体 的 轮廓 。 

(8) 在 Chan-Vese 分 割 算 法 中 ， 对 去 噪 后 的 图 像 在 国 值 上 进行 线性 搜索 。 对 于 每 个 国 
值 ， 存 储 能 量 BIT)， 并 选择 具有 最 小 值 的 分 割 结 采 。 
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OpenCV 





本 章 概 述 如 何 通过 Python #2 O fE H iT AI TP EL AW it E OpenCV, OpenCV 是 一 个 
CH 库 ， 用 于 《实时 ) 处理 计 算 视 觉 问 题 。 实 时 处 理 计 算 机 视觉 的 C++ 库 ， 最 初 由 
英特尔 公司 开发 ， 现 由 Willow Garage 维护 。OpenCV 是 在 BSD 许可 下 发 布 的 开源 
库 ， 这 意味 着 它 对 于 学 术 人 研究 和 商业 应 用 是 免费 的 。OpenCV 2.0 版 本 对 于 Python 的 支 
持 已 经 得 到 了 极 大 的 改善 。 下 面 ， 我 们 会 讲解 一 些 基 本 的 例子 并 深入 了 解 视频 与 跟 踩 。 


10.1 OpenCV 的 Python 接 口 


OpenCV 是 一 个 C++ 库 ， 它 包含 了 计算 机 视 完 领域 的 很 多 模块 。 除 了 C++ 和 C， 
Python 作为 一 种 简洁 的 脚本 语言 ， 在 C++ 代码 基础 上 的 Python 接口 得 到 了 越 来 越 
广泛 的 支持 。 目 前 ，OpenCYV 的 Python 接口 仍 在 发 展 ， 不 过 并 不 是 所 有 的 OpenCV 
组 件 都 提供 了 相应 的 Python 接口 ， 此 处 还 有 很 多 函数 没有 文档 说 明 。 因 为 该 接口 背 
后 有 一 个 很 活跃 的 开发 社区 ， 所 以 这 种 现状 很 有 可 能 得 到 改变 。Python 接口 文档 说 
HH UL http://opencv.willowgarage.com/documentation/python/index.html， 安 装 说 明 参 


bal Mita A。 


OpenCV 2.3.1 版 本 实际 上 提供 了 两 个 Python 接口 。 旧 的 cv 模块 使 用 OpenCV 内 部 
数据 类 型 ， 并 且 从 NumPy 使 用 起 来 可 能 需要 一 些 技巧 。 新 的 cv2 模块 用 到 了 NumPy 数 
组 ， 并 且 使 用 起 来 更 加 直观 ， 可 以 通过 以 下 方式 导入 新 的 cv2 模块 : 


import cv2 








TE 1: 这 两 个 模块 的 名 称 和 位 置 可 能 会 随时 间 改 变 。 改 变 情况 参阅 在 线 文 档 。 


227 


而 对 于 旧 的 cv 模块 可 以 通过 以 下 方式 导入 : 
import cv2.cv 


AS Fe ABOVE cv2 ER HERE AAT RA PRA R LA FE Jar Rh 
本 中 的 定义 。 现 在 ，OpenCV 和 Python 接口 在 飞速 发 展 中 。 





10.2 OpenCV 基 础 知识 


OpenCV 目 融 读 取 、 写 入 图 像 函 数 以 及 矩阵 操作 和 数学 库 。 关 于 OpenCV 的 细 市 ， 
有 一 本 很 好 的 书 [3] (只 有 C++ 版) 。 我 们 现在 来 看 一 些 基 本 的 组 件 及 其 使 用 方法 。 








10.2.1 读 取 和 写 入 图 像 
下 面 这 个 简短 的 例子 会 载 入 一 张 图 像 ， 打 印 出 图 像 大 小 ， 对 图 像 进行 转换 并 保存 
为 png 格式 : 


import cv2 


# 读 取 图 像 

im = cv2.imread('empire.jpg') 
h,w = im.shape[:2] 

print h,w 


# 你 存 图 像 


cv2.imwrite('result.png' ,im) 


国 数 imread() 返回 图 像 为 一 个 标准 的 NumPy 数组 ， 并 且 该 函数 能 够 处 理 很 多 不 同 格 
式 的 图 像 。 如 果 你 愿意 ， 可 以 将 该 函数 作为 PIL PRR A RIN HK. KA 
imwrite() 会 根据 文件 后 绥 上 自动 转换 图 像 。 


10.2.2 ”颜色 空间 
在 OpenCV 中 ， 图 像 不 是 按 传统 的 RGB 颜色 通道 ， 而 是 按 BGR 顺序 〈 即 RGB 的 
倒序 ) 存储 的 。 读 取 图 像 时 默认 的 是 BGR ， 但 是 还 有 一 些 可 用 的 转换 国 数 。 颜 色 空 
间 的 转换 可 以 用 国 数 cvtColor() 来 实现 。 例 如 ， 可 以 通过 下 面 的 方式 将 原 图 像 转换 
成 灰 度 图 像 : 

im = cv2.imread('empire. jpg’ ) 


# 创建 灰 度 图 像 
gray = cv2.cvtColor(im,cv2.COLOR BGR2GRAY) 
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在 读 取 原 图 像 之 后 ， 紧 接 其 后 的 是 OpenCV 颜色 转换 代码 ， 其 中 最 有 用 的 一 些 转换 
代码 如 下 : 


e cv2.COLOR_BGR2GRAY 
e cv2.COLOR_BGR2RGB 
e cv2.COLOR_GRAY2BGR 


上 面 每 个 转换 代码 中 ， 转 换 后 的 图 像 颜色 通道 数 与 对 应 的 转换 代码 相 匹 配 ， 比 如 对 于 
灰 度 图 像 只 有 一 个 通道 ， 对 于 RGB 和 BGR 图 像 则 有 三 个 通道 。 最 后 的 cv2.COLOR_ 
GRAY2BGR 将 灰 度 图 像 转换 成 BGR 彩色 图 像 ， 如 果 你 想 在 图 像 上 绘制 或 覆盖 有 色彩 
的 对 象 ，CV2.COLOR_GRAY2BGR 是 非常 有 用 的 ， 我 们 会 在 后 面 的 例子 中 用 到 它 。 


10.2.3 显示 图 像 及 结 
我 们 来 看 一 些 用 OpenCYV 处 理 图 像 的 例子 ， 以 及 怎样 利用 OpenCV 绘制 功能 和 窗口 
管理 功能 来 显示 结果 。 


第 一 个 例子 是 从 文件 中 读 取 一 幅 图 像 ， 并 创建 一 个 整数 图 像 表示 : 
import cv2 


# 读 取 图 像 
im = cv2.imread('fisherman. jpg' ) 
gray = cv2.cvtColor(im,cv2.COLOR BGR2GRAY) 


# 计算 积分 图 像 
intim = cv2.integral(gray) 


# 归 一 化 并 保存 
intim = (255.0*intim) / intim.max() 


cv2.imwrite('result.jpg',intim) 


读 取 图 像 后 ， 将 其 转化 为 灰 度 图 像 ， 图 数 integral() 创建 一 幅 图 像 ， 该 图 像 的 每 个 
像素 值 是 原 图 上 方 和 左边 强度 值 相 加 后 的 结果， 这 对 于 快速 评估 特征 是 一 个 非常 有 
用 的 技巧 。OpenCYV 的 CascadeClassifier 用 到 了 积分 图 像 ， 立 足 于 Viola 和 Jones 
在 文献 [39] 中 引入 的 框架 。 在 保存 图 像 前 ， 通 过 除 以 图 像 中 的 像素 最 大 值 将 其 归 一 
化 到 0 至 255 之 间 。 图 10-1 显示 了 示例 图 像 结果 。 


第 二 个 例子 从 一 个 种 子 像素 进行 泛 洪 填充 : 








import cv2 


t 读 取 图 像 
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filename = ‘fisherman. jpg’ 
im = cv2.imread(filename) 
h,w = im.shape[:2] 


# 沁 潜 填充 

ditt = (6,;6;6) 

mask = zeros((h+2,w+2),uint8) 

cv2.floodfill(im,mask, (10,10), (255,255,0),diff, diff) 


# 在 OpenCV 窗口 中 显示 结果 
cv2.imshow('flood fill', im) 
cv2.waitKey() 


H 保存 结 林 
cv2.imwrite('result.jpg',im) 

















10-1: 用 OpenCV 的 integral() 贺 数 计算 积分 图 像 


在 该 例 中 ， 对 图 像 应 用 泛 洪 填充 并 在 OpenCV 窗口 中 显示 结果 。waitKey() 函数 一 直 
处 于 暂停 状态 ， 直 到 有 按键 按 下 ， 此 时 窗口 才 会 自动 关闭 。 这 里 的 floodfill() 图 
BOREL (KEKEE) 图 像 、 一 个 掩 膜 ( 非 零 像素 区 域 表 明 该 区 域 不 会 被 填充 )、 一 
个 种 子 像素 以 及 新 的 颜色 值 来 代替 下 限 和 上 限 浆 值 差 的 泛 洪 像素 。 泛 洪 填 充 以 种 子 
像素 为 起 始 ， 只 要 能 在 国 值 的 差异 范围 内 添加 新 的 像素 ， 泛 洪 填 充 就 会 持续 扩展 。 
不 同 的 国 值 差 异 由 元 组 (R,G,B) 给 出 ， 结 果 如 图 10-2 所 示 。 


作为 最 后 一 个 例子 ， 我 们 来 看 SURE 特征 的 提取 ，SUREF 特征 是 SIFT 特征 的 一 个 更 
快 特征 提取 版 ， 文 献 [1] 引入 。 这 里 ， 我 们 也 会 展示 怎样 使 用 一 些 基本 的 OpenCV 


绘制 命令 : 











import cv2 


t 读 取 图 像 


im = cv2.imread('empire. jpg' ) 
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# 下 采样 


im lowres = cv2.pyrDown(im) 


# 变换 成 灰 度 图 像 
gray = cv2.cvtColor(im lowres,cv2.COLOR RGB2GRAY) 


# 检测 特征 点 

s = OVA SURF) 

mask = uint8(ones(gray.shape)) 
keypoints = s.detect(gray,mask) 


# RERA 
vis = cv2.cvtColor(gray,cv2.COLOR GRAY2BGR) 


for k in keypoints[::10]: 
cv2.circle(vis, (int(k.pt[0]),int(k.pt[1])),2,(0,255,0),-1) 
ev2 circlée(vis, (int(kst|0]),int(k. pt[d])),1nt( k.sizé),(0,255,0);2) 


cv2.imshow('local descriptors',vis) 
cv2.waitKey() 











10-2: 彩色 图 像 泛 洪 填 充 。 在 左上 角 用 单个 种 子 进行 泛 洪 填 充 ， 右 图 高 之 区 域 标 出 了 所 有 
填充 了 的 像素 


读 取 图 像 后 ， 如 果 没 有 给 定 新 尺寸 ， 则 用 pyrDown() 进行 下 采样 ， 创 建 一 个 尺寸 为 原 
图 像 大 小 一 半 的 新 图 像 ， 然 后 将 该 图 像 转换 为 灰 度 图 像 ， 并 传递 到 一 个 SURF 关键 点 
检测 对 象 ， 掩 膜 决 定 了 在 哪些 区 域 应 用 关键 点 检测 右 。 在 画 出 检测 结果 时 ， 我 们 将 灰 
度 图 像 转 换 成 彩色 图 像 ， 并 用 绿色 通道 画 出 检测 到 的 关键 点 。 我 们 在 每 到 第 十 个 关键 
点 时 循环 一 次 ， 并 在 中 心 画 一 个 圆 环 ， 每 一 个 圆 环 显示 出 关键 点 的 尺度 〈 大 小 )。 绘 
图 函数 circle() 获取 一 幅 图 像 、 图 像 坐 标 〈 仅 整数 坐标 ) 元 组 、 半 径 、 绘 图 的 颜色 
元 组 以 及 线条 粗细 (-1 是 实 线 圆 环 )。 图 10-3 显示 了 提取 出 来 的 SURF 特征 。 
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10-3: 用 OpenCV 提取 SURF 特征 并 画 出 提取 出 来 的 SURF 特征 


10.3 处理 视频 

单纯 使 用 Python 来 处 理 视 频 有 些 困 难 ， 因 为 需要 考虑 速度 、 编 解码 姓 、 摄 像 机 、 操 
作 系 统 和 文件 格式 。 目 前 还 没有 和 针对 Python 的 视频 库 ， 使 用 OpenCV 的 Python 接 
口 是 唯一 不 错 的 选择 。 在 本 市 中 ， 我 们 来 看 一 些 处 理 视频 的 基本 示例 。 





10.3.1 视频 输入 
OpenCV 能 够 很 好 地 支持 从 摄像 头 读 取 视 频 。 下 面 给 出 了 一 个 捕 歼 视频 帧 并 在 
OpenCV 窗口 中 显示 这 些 视频 帧 的 完整 例子 : 


import cv2 


# 设置 视频 捕获 
cap = cv2.VideoCapture(0) 


while True: 

ret,im = cap.read() 

cv2.imshow('video test', im) 

key = cv2.waitKey(10) 

if key == 27: 
break 

if key == ord(' '): 
cv2.imwrite('vid result.jpg', im) 


THI KT Ze VideoCapture FeRAM ER ALI. BAN Va ek — AER ETRE, 
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该 整数 为 视频 设备 的 id;， 如 采 仅 有 一 个 摄像 头 与 计算 机 相连 接 ， 那 么 该 摄像 头 的 id 
AO. read() 方法 解码 并 返回 下 一 视频 帧 ， 第 一 个 变量 ret 是 一 个 判断 视频 帧 是 否 
成 功 读 入 的 标志 ， 第 二 个 变量 则 是 实际 读 入 的 图 像 数 组 。 函 数 waitkey() 等 待 用 户 
按键 : 如 果 按 下 的 是 Esc ft (ASCI 码 是 27) 键 ， 则 退出 应 用 ， 如 果 按 下 的 是 空格 
律 ， 就 保存 该 视频 帧 。 


拓展 上 面 的 例子 ， 将 摄像 头 捕 歼 的 数据 作为 输入 ， 并 在 OpenCV 窗口 中 实时 显示 经 
模糊 的 (彩色) 图 像 ， 我 们 只 需 对 上 面 的 例子 做 简单 的 修改 : 





import cv2 


# 设置 视频 捕获 
cap = cv2.VideoCapture(0) 


E TRI, AA, AeA 
while True: 
ret,im = cap.read() 
blur = cv2.GaussianBlur(im, (0,0),5) 
cv2.imshow('camera blur’ ,blur) 
if cv2.waitKey(10) == 27: 
break 


4g. — FLOM LADS OK FRB ZA GaussianBlur() EIA, ZARS A ee aR es I RAHI 
帧 图 像 进行 滤波 。 这 里 ， 我 们 传递 的 是 彩色 图 像 ， 所 以 Gaussian Blur) 函数 会 录 
入 对 彩色 图 像 的 每 一 个 通道 单独 进行 模糊 。 该 函数 需要 为 高 斯 冰 数 设 定 滤波 絮 尺 寸 
(保存 在 元 组 中 ) 及 标准 差 ， 在 本 例 中 标准 差 设 为 5。 如 果 该 滤波 如 尺寸 设 为 0， 则 
它 由 标准 差 自动 决定 ， 显 示 出 的 结果 与 图 10-4 相似 。 














10-4: 作者 撰写 本 章 时 的 一 幅 经 过 模糊 的 视频 截图 
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以 同样 的 方式 从 文件 读 取 视频 ， 不 过 我 们 调用 VideoCapture() 获取 视频 时 是 以 文件 
名 作为 输入 的 : 


capture = cv2.VideoCapture('filename' ) 


10.3.2 ”将 视频 读 取 到 NumPy 数 组 中 
使 用 OpenCV 可 以 从 一 个 文件 读 取 视 频 帧 ， 并 将 其 转换 成 Numpy 数组 。 下 面 是 一 个 
从 摄像 头 捕获 视频 并 将 视频 帧 存储 在 一 个 NumPy 数组 中 的 例子 : 


import cv2 


# 设置 视频 捕获 
cap = cv2.VideoCapture(0) 


frames = [ | 
# 获取 帧 ， 存 储 到 数组 中 
while True: 
ret,im = cap.read() 
cv2.imshow('video' , im) 
frames .append(im) 
if cv2.waitKey(10) == 27: 
break 
frames = array(frames) 


# 检查 尺寸 
print im.shape 
print frames.shape 


上 述 代码 将 每 一 视频 帧 数组 添加 到 列表 未 ， 直 到 捕获 结束 。 最 终 得 到 的 数组 会 有 由 
Ql. Wii. WIE Aa (3 个 ) ， 打 印 出 的 结 东 如 下 : 


(480, 640, 3) 
(40, 480, 640, 3) 


这 里 共 记 录 了 40 帧 。 类 似 上 面 将 视频 数据 存储 在 数组 中 对 于 视频 处 理 契 非常 有 帮助 
的 ， 比 如 计算 帧 同 差 异 以 及 跟踪 。 


10.4 跟踪 
跟踪 是 在 图 像 序 列 或 视频 里 对 其 中 的 目标 进行 跟 踊 的 过 程 。 
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10.4.1 Stitt 

光 流 是 目标 、 场 景 或 摄像 机 在 连续 两 帆 图 像 间 运 动 时 造成 的 目标 的 运动 。 它 古 图 像 
在 平移 过 程 中 的 二 维 矢 量 场 。 作 为 一 种 经 典 并 深入 研究 了 的 方法 ， 它 在 诸如 视频 压 
缩 、 运 动 估计 、 目 标 跟 踪 和 图 像 分 割 等 计算 机 视觉 中 得 到 了 广泛 的 应 用 。 


光 尝 法 主要 依 束 于 三 个 假设 。 


(1) 亮度 恒定 “图像 中 目标 的 像素 强度 在 连续 帧 之 间 不 会 发 生变 化 。 

(2) 时 间 规 律 ” 相 邻 帆 之 间 的 时 间 足 够 得， 以 至 于 在 芳 虑 运行 变化 时 可 以 忽略 它们 之 
间 的 差异 。 该 假设 用 于 导出 下 面 的 核心 方程 。 

(3) 空间 一 致 性 相 邻 像素 具有 相似 的 运动 。 


在 很 多 情况 下 这 些 假设 并 不 成 立 ， 但 是 对 于 相 邻 帧 间 的 小 运动 以 及 短 时 间 跳 跃 ， 它 
还 是 一 个 非常 好 的 模型 。 假 设 一 个 目标 像素 在 上 时 刻 亮 度 为 ay, dD, Æ ôt 时 刻 运 
动 [6x,6y] 后 与 上 时 刻 具 有 相同 的 亮度 ， 即 y, D= xx, y+6y, t+ôt). 对 该 约束 用 和 泰 
勒 公式 进行 一 阶 展开 并 关于 1 求 偏 导 可 以 得 到 交流 方程 : 


Vľv=-], 


v=[u,v] 是 运动 矢量 , 1, EMS. A FERR PIERDA, a EE RET E 
组 。 由 于 v 包 仿 两 个 未 知 变量 ， 所 以 该 方程 是 不 可 解 的 。 通 过 强制 加 入 空间 一 致 性 
约束 ， 则 有 可 能 获得 该 方程 的 解 。 在 下 面 的 Lucas-Kanade 算法 中 ， 我 们 将 看 到 怎样 
利用 该 假设 。 


OpenCV 包含 了 一 些 光 流 实现 用 了 块 匹配 的 CalcopticalFlowBM(); M T X 
MA [15] (这 些 只 存在 于 旧 的 cv 模块 ) 的 CalcOpticalFlowHS(); 文献 [19] 中 的 
2S [A] 4z F IS Lucas-Kanade 算法 calcOpticalFlowPyrLK(); 以 及 基于 文献 [10] 的 
calcOpticalFlowFarneback()。 最 后 一 种 被 视 为 获取 密集 流 场 的 最 好 方法 之 一 。 让 
我 们 看 一 个 利用 calcOpticalFlowFarneback() 在 视频 中 寻找 运动 矢量 的 例子 (Lucas- 
Kanade 光 流 法 在 下 一 六 讲述 )。 


运行 下 面 的 脚本 : 
import cv2 


def draw flow(im, flow, step=16): 
"" 在 间隔 分 开 的 像素 采样 点 处 绘制 光 流 "”， 


h,w = im.shape[:2] 
y,X = mgrid[step/2:h:step, step/2:w:step].reshape(2, -1) 
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tx sty = tT LOWLY 


# 创建 线 的 终点 
lines = vstack([x,y,x+fx,y+fy]).T.reshape(-1,2,2) 
lines = int32(lines) 


# 创建 图 像 并 绘制 
vis = cv2.cvtColor(im,cv2.COLOR GRAY2BGR) 
For (XT YI) (x2, y2) in Lines: 
EV2iLine (vis; (Xl yy V2 )5(03255,0) 5.1) 
ew2 vcircle(Visy(x1,; 1) 2; (0525550); <4) 
return vis 


# 设置 视频 捕获 
cap = cv2.VideoCapture(0) 


ret,im = cap.read() 
prev gray = cv2.cvtColor(im,cv2.COLOR BGR2GRAY) 


while True: 
# GREK BEAR 
ret,im = cap.read() 
gray = cv2.cvtColor(im,cv2.COLOR BGR2GRAY) 


# thant 
flow = cv2.calcOpticalFlowFarneback(prev_gray,gray,None,0.5,3,15,3,5,1.2,0) 
prev gray = gray 
# I ite ae 
cv2.imshow('Optical flow',draw flow(gray, flow) ) 
if cv2.waitKey(10) == 27: 
break 


Fix 7 Pol FFP, AHA a 18 SA THR A FRO a ERA ROT HE TIC hit. H 
calcOpticalFlowFarneback() 返回 的 运动 光 流 矢量 保存 在 双 通 道 图 像 变 量 flow 中 。 除 
了 需要 获取 需要 获取 前 一 帧 和 当前 帧 ， 该 国 数 还 需要 一 系列 参数 。 如 末 有 兴趣 可 以 
查找 相关 的 文献 。 辅 助 函 数 draw flow() SHERRY AIA PA ANZ HIDE Ae, 
它 利 用 OpenCy 的 绘图 函数 line() 和 circle()， 并 用 变量 step 控制 流 样本 的 间距 。 
最 终 的 结 末 如 图 10-5 所 示 : Wl ARR ENE AH i, THAR RI RR S 
每 个 样本 点 是 怎样 运动 的 。 














Optical Flow Optical Flow 








图 10-5: 在 书本 平移 和 头 部 转动 的 视频 上 展示 光 流 矢量 (每 隔 15 个 像素 采样 一 次 ) 


10.4.2 Lucas-Kanade 算 法 


跟踪 最 基本 的 形式 是 跟随 感 兴 趣 点 ， 比 如 角 点 。 对 此 ,一 次 流行 的 算法 是 Lucas- 
Kanade 跟踪 算法 ， 它 利用 了 稀 蚊 交流 算法 。 


Lucas-Kanade 跟踪 算 法 可 以 应 用 于 任何 一 种 特征 ， 不 过 通常 使 用 一 些 角 点 ， 比 如 
2.1 节 的 Harris 角 点 。 ed de 函数 采用 Shi 和 Tomasi 在 文献 [33] 中 
设计 的 算法 检测 角 点 ;， 角 点 是 结构 张 量 (Harris Æ) 中 有 两 个 较 大 特征 值 的 那些 
点 ， 且 更 小 的 ss A 


如 琳 基 于 每 一 个 像素 考虑 ， 该 光 流 方程 组 古 欠 定 方程 ， 即 每 个 方程 中 伟人 很 多 未 知 变 
量 。 利 用 相 邻 像素 有 相同 运动 这 一 假设 ， 对 于 n 个 相 邻 像素 ， 可 以 将 这 些 方程 写成 
如 下 系统 方程 : 








VI' (x) LX) L) LX) 
VI (x2) p- LA) DX) Nu |La) 
: | v| : 
VI (Xn) L.) L) L(x.) 


该 系统 方程 的 优势 是 ， 现 在 方程 的 数目 多 于 未 知 变 量 ， TE A 
该 系统 方程 。 对 于 周围 像素 的 页 献 可 以 进行 加 权 处 理 ， 使 越 远 的 像素 影响 越 小 ， 
斯 权重 是 一 种 最 常见 的 选择 。 将 上 面 的 算 阵 变换 成 方程 (2.2) 的 结构 张 量 形式 ， 可 
以 得 出 以 下 关系 : 


L(x) 


ya L X yr o 
Mv =- 0], EA Ab 


L(x) 
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该 超 定 方 程 组 可 以 用 最 小 二 乘法 求解 ， 得 出 运动 矢量 : 
v = (4'A)'A'D 
v RAE AA 可 逆 时 才 是 可 解 的 ， 如 果 应 用 在 Harris 角 点 或 Shi-Tomasi 的 “利于 跟 


ent AH eel features to track” E, AA 是 可 逆 的 。 这 就 是 Lucas-Kanade 跟踪 算法 
运行 矢量 怎样 计算 出 来 的 全 过 程 。 


标准 的 Lucas-Kanade 跟踪 适用 于 小 位 移 ， 为 了 能 够 处 理 较 大 位 移 ， 需 要 采用 分 层 的 
方法 。 在 该 情形 下 ， 光 流 可 以 通过 对 图 像 由 粗 到 精采 样 计 算得 到 。 这 就 是 OpenCV 
国 数 calcOpticalFlowPyrLK() 要 做 的 事 。 


这 些 Lucas-Kanade KAE EE OpenCV 中 ， 让 我 们 看 看 怎样 利用 这 些 疯 数 建立 一 个 
Python 跟踪 类 。 创 建 名 为 ktrack.py 的 文件 ， 癌 其 添加 下 面 的 类 和 构造 函数 : 


import cv2 


# 一些 第 数 及 默认 参数 
lk params = dict(winSize=(15,15),maxLevel=2, 


criteria=(cv2.TERM CRITERIA EPS | cv2.TERM CRITERIA COUNT,10,0.03)) 


subpix params = dict(zeroZone=(-1,-1),winSize=(10,10), 
criteria = (cv2.TERM CRITERIA COUNT | cv2.TERM CRITERIA EPS, 20,0.03)) 


feature params = dict(maxCorners=500, qualityLevel=0.01,minDistance=10) 


class LKTracker(object): 
用 人 金字塔 光 流 Lucas-Kanade 跟踪 类 """ 


def init (self,imnames): 


"使 用 图 像 名 称 列表 初始 化 " 


self.imnames = imnames 
self.features = | | 
self.tracks = | 
self.current_frame = 0 


用 一 个 文件 名 列表 对 跟踪 对 象 进 行 初 始 化 ， 变 量 features 和 tracks 分 别 保存 角 点 
对 这 些 角 点 进行 跟踪 的 位 置 ， 同 时 ， 我 们 也 利用 一 个 变量 对 当前 帆 进 行 跟 躁 。 > 
定义 了 三 个 字典 变量 用 于 特征 提取 、 跟 踪 、 和 亚 像 素 特 征 点 的 提炼 。 


在 开始 检测 角 点 时 ， 我 们 需要 载 和 实际 图 像 ， 并 转换 成 灰 度 图 像 ， 提 取 “ 利 用 跟踪 
的 好 的 特征 ”点 。OpenCYV 函数 goodFeaturesToTrack() 方法 可 以 完成 这 一 主要 工 








作 。 将 下 面 的 detect points() 添加 到 LKTracker 类 中 : 


def detect_points(self): 
"e 利用 子 像素 精确 度 在 当前 帧 中 检测 “利于 跟踪 的 好 的 特征 ”( 角 点 )""" 





E 载 入 图 像 并 创建 灰 度 图 像 
self.image = cv2.imread(self.imnames[self.current_ frame] ) 
self.gray = cv2.cvtColor(self.image,cv2.COLOR BGR2GRAY) 


# 搜索 好 的 特征 点 


features = cv2.goodFeaturesToTrack(self.gray, **feature params) 


# 提炼 角 点 位 置 


cv2.cornerSubPix(self.gray,features, **subpix params) 


self.features = features 
self.tracks = [[p] for p in features.reshape((-1,2)) | 


self.prev_ gray = self.gray 


述 代 人 码 用 i eee 并 保存 在 成 员 变 量 features 和 tracks 
中 。 需 要 注意 的 是 ， 运 行 该 国 数 会 请 除 跟 踩 历史 。 


现在 我 们 已 经 可 以 检测 这 些 角 点 ， 接 下 来 还 需要 对 其 进行 跟踪 。 首 先 我 们 需要 获得 下 
一 帧 图 像 ， 然 后 应 用 OpenCYV 函数 calcOpticalFlowPyrLk() 找 出 这 些 点 运动 到 哪里 
了 ， 最 后 清除 这 些 包含 跟踪 点 的 列表 。 下 面 的 track points() 方法 可 以 完成 该 过 程 : 








def track points(self): 
"Po eer EY AEE "” 


if self.features != [|]: 
self.step() # 移 到 下 一 帧 


# 载 入 图 像 并 创建 灰 度 图 像 
self.image = cv2.imread(self.imnames[self.current_frame | ) 
self.gray = cv2.cvtColor(self.image,cv2.COLOR BGR2GRAY ) 


#reshape() 操作 ， 以 适应 输入 格式 
tmp = float32(self.features).reshape(-1, 1, 2) 


# 计算 光 流 
features, status, track error = cv2.calcOpticalFlowPyrLK(self.prev_ gray, 
self.gray,tmp,None, **]k params) 


# 去 除 丢 失 的 点 
self.features = [p for (st,p) in zip(status,features) if st] 
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# 从 丢失 的 点 清楚 跟踪 轨迹 


features = array(features).reshape((-1,2)) 


for i,f in enumerate(features): 
self.tracks[i].append(f) 
ndx = [i for (i,st) in enumerate(status) if not st] 


ndx.reverse()# 从 后 面 移 除 


for i in ndx: 


self.tracks.pop(i) 


self.prev_ gray = self.gray 





下 面 定义 一 个 辅助 国 数 step() ， 用 于 移动 到 下 一 视频 帧 


该 方法 会 跳 转 到 一 个 给 定 的 视频 帧 ， 如 来 没有 给 定 参 数 则 直接 跳 转 到 下 一 帧 。 


最 后 ， 我 们 还 希望 能 够 用 OpenCV 窗口 和 绘图 国 数 画 出 最 终 的 跟踪 结果 。 


ee framenbr=None): 


" AE Pil, WAAL 


if framenbr is None: 
self.current_frame 

else: 
self.current_frame 


(self.current_ frame + 1) % len(self.imnames) 


framenbr % len(self.imnames) 


draw() 方法 到 LKTracker 类 : 


def draw(self): 








"用 OpenCV 自 带 的 画图 函数 画 出 当前 图 像 及 跟踪 点 ， 按 任意 键 关闭 窗口 """ 


# 用 绿色 圆圈 画 出 跟踪 点 


for point in self.features: 


cv2.circle(self.image, (int(point[0o][0]),int(point[0][1])),3,(0,255,0),-1) 


cv2.imshow('LKtrack', self. image) 


cv2.waitKey() 


台 定 参数 ， 直 接 移 到 下 一 帧 ” 





MÆ, RITH OpenCV 函数 实现 了 一 个 完整 独立 的 跟踪 系统 。 


1. 使 用 跟踪 器 
a a a a a 


ITAR, RER, Jm HIRERE : 


import lktrack 


imnames = ['bt.003.pgm', 


‘bt.002.pgm' , 


‘bt.001.pgm' , 


‘bt .000.pgm' | 


as OM 





# 创建 跟踪 对 象 
lkt = lktrack.LKTracker(imnames) 


# 在 第 一 帧 进行 检 测 ， 跟 踪 剩 下 的 帧 
lkt.detect points() 
lkt.draw() 
for i in range(len(imnames)-1): 
lkt.track points() 
lkt.draw() 


FRE — tl, HERRAR, RERESET E 10-6 
显示 了 牛津 corridor 序列 (牛津 对 多 视图 数据 集中 的 一 个 序列 ， 参 见 http://www. 
robots.ox.ac.uk/~vgg/data/data-mview.html) 的 前 4 幅 图 像 的 跟踪 结果 。 








LKtrack 








10-6; 通过 LKTrack 类 利用 Lucas-Kanade 算法 进行 跟踪 
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2. 使 用 发 生 器 
将 下 面 的 方法 添加 到 LKTracker 2: 


def track(self): 
"Be ait, MTERA" 


for i in range(len(self.imnames) ): 
if self.features == |]: 
self.detect_points() 
else: 
self.track_points() 
# 创建 一 份 RGB 副本 
f = array(self.features).reshape(-1,2) 
im = cv2.cvtColor(self.image,cv2.COLOR BGR2RGB) 
yield im, fF 


TRAY Fa 15 BES HE ai, ERE aE Se IFES A a x EE Fd RL, 


RGB 数组 保存 ， 以 方便 画 出 跟踪 结果 。 将 它 用 于 经 典 的 牛津 “dinosaur” 序 列 (也 
来 源 于 上 面 提 到 的 多 视图 数据 集 )， 并 画 出 这 些 点 及 这 些 点 的 跟踪 结果 ， 代 码 如 下 : 





import lktrack 


imnames = ['viff.000.ppm', 'viff.001.ppm', 
'viff.002.ppm', ‘viff.003.ppm', ‘viff.004.ppm' | 


# 用 LKTracker 发 生 器 进行 跟踪 
lkt = lktrack.LKTracker(imnames ) 
for im Tein Lktvtrack()? 
print 'tracking %d features' % len(ft) 


# 画 出 轨迹 
figure() 
imshow(im) 
TOR p cim ELS 
plot(p[0],p[1], ‘bo’ ) 
fort: an: Lkostracks: 
plott pO, how jp: an: 4) oll) Or spe ai. E) 
axis('off') 
show( ) 


iB HE ae (EA a ESC AY PR RE A EA SE AD, FPA SE 4 IA A PB eke 
OpenCV 里 的 国 数 。 该 示例 生成 的 结 末 如 图 10-6 右 下 图 和 图 10-7 所 示 。 




















10-7; 用 Lucas-Kanade 跟踪 算法 在 转盘 序列 上 跟 踩 并 男 出 跟 踩 点 的 轨迹 


10.5 更 多 示例 


OpenCV 目 市 很 多 关于 如 何 使 用 Python 接口 的 有 用 示例 。 这 些 示 例 在 子 目 好 
samples/python2/ 中 ， 用 这 些 例 子 来 熟悉 OpenCV 是 一 种 非 第 好 的 方式 。 这 里 选择 
了 一 些 来 说 明 OpenCV 的 一 些 其 他 功能 。 


10.5.1 图 像 修复 
对 图 像 丢 失 或 损坏 的 部 分 进行 重建 的 过 程 叫做 修复 ， 既 包括 以 复原 为 目的 的 对 图 像 
丢失 数据 或 损坏 部 分 进行 恢复 的 算法 ， 也 包括 在 照片 编辑 应 用 程序 中 去 除 红眼 或 物 
体 的 算法 。 典 型 的 例子 是 ， 图 像 的 一 个 区 域 标记 为 “破损 ， 并 需要 利用 余下 的 数据 
对 该 区 域 进行 填补 。 
试 着 运行 下 和 面 的 命令 : 

$ python inpaint.py empire. jpg 


S47 LMA aS ASTT IF 6 Be, EZ H P AY VA m — 2 i Se AY k, 
最 终 修复 的 结 来 会 在 一 个 单独 的 窗口 中 显示 出 来 ， 图 10-8 展示 了 一 个 示例 。 


—* 
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& 10-8: 用 OpenCV 进行 图 像 修复 的 示例 。 左 图 显示 了 由 用 户 标 记 的 “和 破损” 区域。 右 图 
显示 了 经 过 图 像 修复 后 的 结果 


10.5.2 ”利用 分 水 岭 变 换 进 行 分 割 

分 水 岭 是 一 种 可 以 用 于 分 割 ( 见 图 10-9) 的 图 像 处 理 技术 。 图 像 可 以 看 成 是 一 幅 有 
很 多 种 子 区 域 “ 淹 没 ” 后 形成 的 拓扑 地 貌 。 由 于 梯度 幅 值 图 像 在 突出 的 边 绿 有 痊 ， 
而 且 分 割 通常 在 这 些 边缘 处 停止 ， 所 以 通常 会 用 到 梯度 幅 值 图 像 。 








ay! Ah | ? 
A Vi Wy, i 
y f j ) 
A pE 1 
本 5 人 K 
f ; 


10-9: 用 分 水 怜 变 换 分 割 图 像 。 左 图 是 夯 有 种 子 区 域 的 输入 图 像 ， 右 图 显示 了 分 割 结 
分 割 区 域 用 不 同 的 颜色 覆盖 














OpenCV 中 的 分 水 岭 变换 使 用 Meyer [22] 的 算法 ， 可 以 使 用 下 面 的 命令 


$ python watershed.py empire. jpg 


该 命令 会 打开 一 个 交互 窗口 ， NRG e 口中 画 一 些 种 子 区 域 作 为 输入 。 图 10-9 
右 图 显示 了 用 分 水 岭 变换 进行 分 割 后 的 结 朱 ， 在 变换 后 的 灰 度 图 像 中 ， 不 同 颜色 代 
表 分 割 窗 盖 的 区 域 。 


10.5.3 ”利用 霍 夫 变换 检测 直线 

霍 夫 变换 (http://en.wikipedia.org/wiki/Hough_transform) 是 一 种 用 于 在 图 像 中 寻找 
各 种 形状 的 方法 ， 原 理 古 在 参数 空间 中 使 用 投票 机 制 。 霍 夫 变 换 和 常用 于 在 图 像 中 寻 
找 直 线 结构 。 在 该 情况 下 ， 可 以 在 二 维 直 线 参数 空间 对 相同 的 直线 参数 进行 投票 ， 
将 边缘 和 线段 组 合 在 一 起 。 


OpenCV 可 以 利用 该 方法 进行 直线 检测 ， 运 行 下 面 的 命令 : 








$ python houghlines.py empire.jpg 


它 会 给 出 图 10-10 中 的 两 个 窗 5 ya Es T Dik Rd ad 47 Ang BE SO Hi Ja HIAR BE 
图 像 ， ein nen. Ri 间 获 得 的 投 
mine. ER, oe 是 无 限 长 的 ， 如 末 你 想 在 图 像 中 找到 线段 的 端点 ， 可 
以 使 用 边 绿 映射 找到 这 些 端 后 。 














图 10-10: 利用 霍 夫 变换 检测 直线 。 左 图 定 原 图 像 经 变换 后 的 灰 度 图 像 ， 右 图 显示 了 检测 到 
的 直线 


1: 该 示例 当前 在 /sample/python 文件 夹 中 。 
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练习 


(1) 用 交流 建立 一 个 简单 的 手势 识别 系统 。 例 如 ， 你 可 以 在 绘图 冰 数 中 对 流 采 样 ， 并 
将 这 些 样本 矢量 作为 输入 。 

(2) OpenCV 中 有 两 个 扭曲 国 数 ，cv2.warpAffine() 和 cv2.warpPerspective()。 试 着 
将 它们 用 于 第 3 章 的 一 些 例 子 中 。 

(3) 在 图 10-7 的 那些 牛 唐 “dinosaur ”图 像 上 用 泛 洪 盾 充 函数 做 背景 减 除 ， 创 建新 的 
图 像 ， 将 马龙 放 在 不 同 的 颜色 背景 中 或 不 同 的 图 像 中 。 

(4) OpenCV 有 一 个 函数 cv2.findChessboardCorners()， 它 能 够 自动 找到 棋盘 格 的 角 
点 。 使 用 此 函数 及 cv2.calibrateCamera() 范 数 来 完成 相机 的 校正 。 

(5) 如 末 你 有 两 台 摄 像 机 ， 将 它们 安装 在 立体 平台 上 ， 并 以 不 同 视频 设备 id 用 
cv2.VideoCapture() 捕 狭 成 对 的 立体 图 像 。 两 台 摄 像 机 对 应 id 分 别 为 0 和 1 开 
， 计 算 不 同 场景 的 景深 图 。 

(6) 在 8.4 节 数 独 OCR 分 类 问题 中 使 用 cv2.HuMoments() 提取 的 Hu PERENE, 
看 看 分 类 的 效果 如 何 。 

(7) OpenCV 中 有 一 个 Grab Cut 分 割 算法 ， 在 9.1 市 微软 研究 院 Grab Cut 数据 集 上 
用 cv2.grabCut() 函数 进行 图 像 分 市 。 与 我 们 在 例子 中 用 到 的 低 分 辨 率 分 割 相 比 ， 
你 应 该 会 获得 更 好 的 分 割 结 来 。 

(8) 修改 Lucas-Kanade 跟踪 类 ， 使 其 能 够 将 一 个 视频 文件 作为 输入 ， 并 写 一 个 脚本 ， 
在 帆 与 帆 之 间 进 行 点 跟踪 ， 在 每 阳 帆 时 检 疯 新 点 。 
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附录 A 


RRA 








Pie ABFA Ba AE LAY te] ER, SET SK AI RA. AAT 
况 会 因 时 间 发 生变 化 《网 址 变化 ! ) ， 所 以 如 有 果 以 下 说 明 过 时 ， 请 检查 各 项 目 网 站 寻 
求 帮助 。 


除了 对 各 软件 具体 的 说 明 ，Python 的 easy_install 往往 可 以 在 大 多 数 平台 上 使 用 。 
如 果 你 遇 到 安装 说 明 回 题 ，easy_install 值得 一 试 ， 详 见 http://packages.python.org/ 
distribute/easy_install.html, 





A.1 NumPy 和 Scipy 


Ke NumPy 和 SciPy 有 一 氮 不 同 ， 这 取决 于 你 的 操作 系统 。 请 按照 下 面相 应 的 说 明 
安装 ， 而 大 多 数 平 台 上 的 现行 版 本 是 2.0 (NumPy) 和 0.11 (Scipy)。 目 前 可 以 在 所 
有 主要 平台 上 运行 的 一 个 程序 包 是 Enthought 的 EPD Free， 它 是 商业 Enthought 发 
行 版 的 一 个 免费 轻 量 版 本 ， 参 见 http://enthought.com/products/epd_free.php. 


A.1.1 Windows 


HEH, Ax 


安装 NumPy 和 SciPy 最 简单 的 方法 是 在 http://www.scipy.org/Download 下 载 并 安装 二 
进 制版 本 。 





A.1.2 Mac OS X 
最 新 版 本 的 Mac OS X (10.7.0 [Lion] 及 以 上 ) 预 装 了 Numpy。 


24/7 


安装 NumPy 和 Scipy 到 Mac OS XX 的 一 个 人 简单 方法 是 使 用 SUPERPACK (https:// 
github.com/fonnesbeck/ScipySuperpack) ;这 种 方法 也 适用 于 Matplotlib。 


另 一 种 方法 是 使 用 包 管 理 系 统 MacPorts (http://www.macports.org/)。 除 了 下 面 的 方 
法 ， 这 同样 适用 于 Matplotlib. 





如 果 这 些 都 不 成 功 ， 该 项 目 网 页 还 列 出 了 其 他 方法 (http://scipy.org/) 。 


A.1.3 Linux 

Ke BOR RA TT ALY E BE RR, EE TIM T NumPy， 田 一 些 则 没有 。 
NumPy 和 SciPy 都 易于 通过 安装 包 内 置 的 处 理 程序 安装 (例如 Ubuntu 的 Synaptic). 
除了 下 面 的 方法 ， 你 也 可 以 使 用 包 处 理 程序 安装 Matplotlib。 


A.2 Matplotlib 


这 里 是 Matplotlib 的 安装 说 明 ， 以 防 你 在 NumPy/SciPy 的 安装 中 没有 安装 
Matplotlib。Matplotlib 可 以 从 http://matplotlib.sourceforge.net/ 免费 获取 。 点 击 
download (下 载 ) 链接 ， 为 你 的 系统 和 Python 发 行 版 下 载 最 新 版 本 的 安装 程序 。 目 
前 最 新 的 版 本 是 1.1.0。 


你 也 可 以 下 载 源 代码 并 解压 ， 从 命令 行 运行 : 





$ python setup.py install 


应 该 一 切 正 第 。 不 同系 统 的 一 般 安 装 提示 可 以 参阅 http://matplotlib.sourceforge.net/ 
users/installing.html， 上 述 安 闭 过 程 应 该 适用 于 大 多 数 平台 和 Python 版 本 。 


A.3 PIL 


PIL, EH Python 图 像 库 ， 可 在 http://www.pythonware.com/products/pil/ 获取 。 最 新 
beh Ae 1.1.7。 下 载 源 代码 包 ， 解 压 。 在 解压 后 的 文件 夹 中 ， 从 命令 行 运行 : 





$ python setup.py install 


如 果 你 想 使 用 PIL 保存 图 像 ， 需 要 有 JPEG (libjpeg) 和 PNG (zlib) 支持 。 如 果 你 
遇 到 任何 问题 ， 请 参阅 README 文件 或 PIL 网 站 。 
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A.4 LibSVM 


最 新 版 本 是 3.1 (2011 年 4 月 发 布 )。 请 从 LibSVM 网 站 Chttp://www.csie.ntu.edu. 
tw/~cjlin/libsvm/) 下 载 zip 文件 ， 并 解压 (将 创建 目录 libsvm-3.1)。 从 终端 进入 该 日 
me, HA make: 


$ cd libsvm-3.0 
$ make 


然后 进入 python 目录， 同样 输入 make: 


$ cd python/ 
$ make 





EE Ste (RPT. A SWE MA, FEATS FT IA) Python, RIA: 
import svm 


作者 为 使 用 LibSVM [7] ES T KHR. MPO eR, ETP IRAF AIA aR. 


A.5 OpenCV 


RR OpenCV 有 些 不 同 ， 这 取决 于 你 的 操作 系统 。 按 照 下 面相 应 的 说 明 进 行 安 猜 。 





为 检查 安装 是 否 成 功 , 局 动 Python 并 尝试 http://opencv.willowgarage.com/documentation/ 
python/cookbook.html 上 的 示例 。 对 于 如 何 使 用 OpenCV 与 Python ， 在 线 OpenCV 
的 Python 参 芳 指责 提供 了 更 多 的 例子 和 细节 ， 参 见 http://opencv.willowgarage.com/ 


documentation/python/index.html, 


A.5.1 Windows 和 Unix 
在 SourceForge 库 里 ， 有 Windows 和 Unix 的 安装 程序 ， 参 见 http://sourceforge.net/ 


projects/opencvlibrary/, 


A.5.2 Mac OS X 


Mac OS X AY x fF A A RR, (E ZEON UB ie ES AM OpenCV 的 wiki 描述 (http:/ 
opencv.willowgarage.com/wiki/InstallGuide)， 有 几 种 方法 可 以 从 源 代 码 进 行 安 装 ， 
如 条 你 使 用 MacPorts 软件 包 管 理 絮 来 安装 Python, Numpy 和 SciPy 或 Matplotlib, 
它 会 古 一 个 不 错 的 选择 ， 可 以 这 样 从 源 代码 安装 OpenCV: 


$ svn co https://code.ros.org/svn/opencv/trunk/opencv 
$ cd opencv/ 
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$ sudo cmake -G "Unix Makefiles" . 
$ sudo make -j8 
$ sudo make install 


ANA REIT AAA ISS AR, DD AS er TE EE FP Ee MUR PR Bll — PI 
的 错误 : 


import cv2 

Traceback (most recent call last): 
file "", line 1, in 

ImportError: No module named cv2 





那么 你 需要 将 舍 cv2.so 的 目录 添加 到 PYTHONPATH。 例如 : 


$ export PYTHONPATH=/usr/local/lib/python2.7/site-packages/ 


A.5.3 Linux 


Linux 用 户 可 以 尝试 发 行 版 安装 包 (通常 称 为 opencv)， 或 像 Mac OS X 一 节 中 所 摘 
述 的 那样 ， 从 源 代 码 安 装 。 


A.6 VLFeat 


安装 VLFeat， 需 要 从 http://vifeat.org/download.html (目前 最 新 版 本 是 0.9.14) PAK 
并 解压 缩 最 新 的 二 进 制 软 件 包 。 把 路 径 添 加 到 你 的 环境 或 者 把 二 进 制 文件 复制 到 路 
径 中 的 目 孙 。 二 进 制 文件 在 bin 目录 ， 你 可 以 结合 自己 的 平台 选择 子 目录 。 


VLFeat 命令 行 二 进 制 文件 的 使 用 摘 述 在 src/ 子 目 录 。 你 也 可 以 在 http://vlfeat.org/ 
man/man.html 找到 在 线 的 说 明文 档 。 


A.7 PyGame 


PyGame 可 以 从 http://www.pygame.org/download.shtml 下 载 ， 最 新 版 本 是 1.9.1, He 
简单 的 方法 是 获取 与 系统 和 Python 版 本 相应 的 二 进 制 安装 包 。 


你 也 可 以 下 载 源 代码 ， 并 在 下 载 后 的 文件 夹 里 从 命令 行 中 运行 : 


$ python setup.py install 


A.8 PyOpenGL 


安装 PyOpenGL 最 人 简单 的 方法 是 按照 PyOpenGL 网 页 (http://pyopengl.sourceforge. 
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net/) 的 建议 从 http://pypi.python.org/pypi/PyOpenGL 下 载 安装 包 。 获 取 最 新 版 本 ， 
目前 是 3.0.1。 


在 下 载 文 件 来 ， 和 之 前 一 样 运行 
$ python setup.py install 


如 果 你 遇 到 问题 或 需要 依赖 性 信息 等 ,可 以 在 http://pyopengl.sourceforge.net/documentation/ 
installation.html 找到 更 多 说 明文 档 。http://pypi.python.org/pypi/PyOpenGL-Demo 有 
一 些 很 好 的 入 门 滨 示 脚 本 。 


A.9 Pydot 


首先 安装 依赖 关系 ，GraphViz 和 Pyparsing。 转 到 http:Wwww.sgraphviz.org/， 为 你 的 
平台 下 载 最 新 的 GraphViz 二 进 制 包 。 安 装 文件 会 自动 安装 GraphViz。 

然后 ， 转 到 Pyparsing 项 目 主 页 http://pyparsing.wikispaces.com/, PÆ A HA http:// 
sourceforge.net/projects/pyparsing/。 获 取 最 新 版 本 (目前 是 1.5.5)， 并 解压 到 一 个 日 
录 下 。 在 命令 行 输入 : 


$ python setup.py install 





最 后 ， 转 到 项 目 页 面 http://code.google.com/p/pydot/， 点 击 download (下 载 )。 从 下 
载 页 面 下 载 最 新 版 本 (目前 是 1.0.4)。 解 压 并 再 次 输入 : 


$ python setup.py install 





现在 你 应 该 能 够 将 pydot 导入 你 的 Python 会 话 中 。 


A.10 Python-graph 


Python-graph 是 一 个 操作 图 表 的 Python RH, GERS AHAW, WMD., 
短路 径 、 网 页 排名 和 最 大 流量 ， 最 新 的 版 本 是 1.8.1， 可 以 在 项 目 网 站 http://code. 
google.com/p/pythongraph/ 上 找到 。 如 果 你 的 系统 上 有 easy_install， 最 简单 的 方法 是 : 


$ easy install python-graph-core 
或 者 ， 在 http://code.google.com/p/python-graph/downloads/list 下 载 产 代码 并 运行 : 
$ python setup.py install 


要 编写 并 可 视 化 图 形 (使 用 的 DOT 语言 )， 你 需要 python-graphdot， 它 可 以 下 载 或 
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使 用 easy install 安装 : 
$ easy install python-graph-dot 


Python-graph-dot 依赖 于 pydot， 如 上 所 示 。 文 档 (HTML 格式 ) 在 docs/ 文件 夹 中 。 


A.11 Simplejson 


Simplejson 是 JSON 模块 的 独立 维护 版 本 ,适合 最 Python 新 版 (2.6 或 更 高 版 本 )。 
两 个 模块 的 语法 相同 ， 但 simplejson 更 优 ， 并 且 能 发 挥 更 好 的 性 能 。 


在 项 目 页 面 https://github.com/simplejson/simplejson 单 击 Download 按钮 。 然 后 在 
Download Packages (下 载 包 ) 区 域 (目前 是 2.1.3) 选择 最 新 版 本 。 解 压 文 件 夹 ， 
在 命令 行 中 输入 : 


$ python setup.py install 


一 切 OK T. 


A.12 PySQLite 


PySQLite 是 一 个 为 Python 绑 定 的 SQLite, SQLite 是 一 个 基于 磁盘 的 轻 量 级 数据 
库 ， 可 以 使 用 SQL Ait, FFA APRA. wA 2.6.3, ILIA W 
wh, http://code.google.com/p/pysalite/ , 





从 http://code.google.com/p/pysqlite/downloads/list 下 载 文件 并 解压 到 一 个 文件 夹 ， 
从 命令 行 运行 : 


$ python setup.py install 


A.13 CherryPy 


CherryPy (http://www.cherrypy.org/) 是 一 个 快速 、 稳 定 、 轻 量 级 的 Web 服务 器 ， 
基于 Python 建立 ， 使 用 面向 对 象 模型 。CherryPy 易于 安装 ， 只 需 从 http://www. 
cherrypy.org/wiki/CherryPyInstall 下 载 最 新 版 本 ， 最 新 的 稳定 版 本 是 3.2.0。 解 压 并 
运行 : 


$ python setup.py install 








安装 后 ， 在 cherrypy/tutorial 文件 夹 查 看 CherryPy 简单 的 示例 教程 。 这 些 例 子 会 告 
诉 你 如 何 传递 GET / POST 变量 ,继承 页 面 特 性 ， 上 传 和 下 载 文件 等 。 
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MY SK B 


图 像 集 





B.1 Flickr 


广 受 欢迎 的 照片 分 享 网 站 Flickr (http://flickr.com/) 是 计算 机 视觉 研究 者 和 爱好 者 
的 金 矿 。 这 是 一 个 很 好 的 资源 ， 包 含 数 以 亿 计 的 图 像 ， 其 中 许多 有 用 户 做 了 标记 ， 
可 以 用 来 获得 训练 数据 或 用 真实 的 数据 进行 实验 。Flickr 有 一 个 API 接口 服务 ， 使 
其 可 以 上 传 、 下 载 和 注释 图 像 (以 及 更 多 功能 )。 对 API 完整 的 描述 参见 http:// 
flickr.com/services/api/， 其 中 还 包含 许多 编程 语言 的 配套 组 件 ， 包 括 Python, 





让 我 们 看 看 如 何 使 用 名 为 flickrpy 的 库 ， 参 见 http://code.google.com/p/flickrpy/。 下 
载 文件 flickr.py。 你 需要 从 Flickr 获得 一 个 API 密 钥 使 其 正常 工作 ， 这 些 窗 钥 对 于 
非 商业 用 途 是 免费 ， 对 于 商业 用 途 则 另 有 要 求 。 点 击 Flickr API 页 面 的 链接 “Apply 
for a new API Key” (申请 新 API 密 钥 ) ， 然 后 按 指示 进行 。 获 得 API 密 钥 后 ， 打 开 
flickr.py， 用 密 钥 奉 换 下 面 的 空 字符 串 : 


API KNEE 
结 朱 如 下 : 
API_KEY = '123fbbb81441231123cgg5b123d92123 ' 


LEAR Gt — 7 al a Sp OB, FR TARRA FERMER. WILA TRE 
到 一 个 名 为 tagdownload.py 的 文件 中 : 
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iimport flickr 
import urllib, urlparse 
import os 
import sys 
if len(sys.argv)>1: 
tag = sys.arev[1] 
else: 
print ‘no tag specified’ 


# 下 载 图 像 数据 
f = flickr.photos search(tags=tag) 
urllist = [] # 用 于 存储 下 载 了 什么 的 列表 





# 下 载 图 像 

人 
url = k.getURL(size='Medium', urlType='source' ) 
urllist.append(ur1l) 
image = urllib.URLopener() 
image.retrieve(url, os.path.basename(urlparse.urlparse(url).path) ) 
print ‘downloading:', url 


如 采 你 想 将 URL 列表 写 入 一 个 文本 文件 ， 可 以 在 末尾 添加 下 面 的 代码 : 


# 将 url 的 列表 写 入 文件 

fl = open('urllist.txt’, W) 

for url in urllist: 
fl.write(url+'\n') 

fl.close() 


在 命令 行 输入 : 
$ python tagdownload.py goldengatebridge 


你 会 得 到 100 幅 标 记 为 “goldengatebridge” 的 最 新 图 像 。 可 以 看 到 ， 我 们 选择 了 获 
取 “ 中 等 ”尺寸 的 图 像 。 如 果 你 想得到 缩 略 图 、 原 尺寸 的 图 像 或 其 他 图 像 ， 这 里 有 
许多 其 他 尺寸 供 选 择 ， 说明 文档 参见 Flickr 网 站 http://flickr.com/api/. 





这 里 我 们 只 对 下 载 图 像 怀 兴趣 ， 需要 映 份 验证 的 API 调用 过 程 略 做 复杂 。 奉 看 API 
文档 了 解 更 多 的 关于 设置 身份 验证 会 话 的 信息 。 


B.2 Panoramio 


谷歌 照片 分 享 服务 Panoramio (http://www.panoramio.com/) 是 一 个 获取 地 理 标 记 
图 像 的 好 地 方 。 该 Web 服务 提供 API 以 编程 方式 访问 内 容 。API 的 描述 参见 http:// 
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www.panoramio.com/api/。 你 可 以 得 到 网 站 小 部 件 并 使 用 JavaScript 对 象 访 问 数据 。 
要 从 该 网 站 上 下 载 图 片 ， 最 简单 的 方法 是 调用 GET， 例 如 : 


http://www.panoramio.com/map/get panoramas.php?order=popularity&set=public& 
from=0&to=20&minx=-180&miny=-90&maxx=180&maxy=90&size=mediu 


minx, miny, maxx 和 maxy 定义 选择 照片 的 地 理 区 域 (分 别 表 示 最 小 经 度 、 最 小 纬 
度 、 最 大 经 度 和 最 大 纬度 )。 啊 应 将 用 ISON 格式 表示 ， 显 示 如 下 : 


count :S12 “photos” : 

[{"upload date": "02 February 2006", "owner name": "***", "photo id": 9439, 
“Longitude s:.-151575;. "height": 375,. width se: 500, “photo title’: Thren, 

"latitude": -16.5, “owner url": “http://www.panoramio.com/user/1600", "owner id": 1600, 
"photo file url": "http://mw2.google.com/mw-panoramio/photos/medium/9439. jpg", 

"photo url": "http://www. panoramio.com/photo/9439"}, 

{upload date": "18 January 2011",. “owner name"; "***", "photo id": 46752123, 
‘Longitude’: 120.252718600000003,." height” = 370, "width": 500, “photo: Cirer a eren 
"Latitude": 23.327833999999999, "owner url": "http://www. panoramio.com/user/2780232", 
"owner id": 2780232, 

"photo file url": “http://mw2.google.com/mw-panoramio/photos/medium/46752123. jpg", 
"photo url": "http://www. panoramio.com/photo/46752123"}, 

{"upload date": "20 January 2011", "owner_name": "***", "photo_id": 46817885, 
"longitude": -178.13709299999999, "height": 330, "width": 500, "photo title": "***", 
"latitude": -14.310613, "owner url": "http://www. panoramio.com/user/919358", 

"owner id": 919358, 

"photo file url": "http://mw2.google.com/mw-panoramio/photos/medium/46817885.jpg", 
"photo url": "http://www.panoramio.com/photo/46817885"}, 


le “has mõre r. true} 


使 用 JSON 包 , 你 可 以 获得 photo file url 字段 的 结果 ， 见 2.3 市 中 的 例子 。 


B.3 牛津 大 学 视觉 几何 组 
牛津 大 学 视觉 几何 研究 组 在 http://www.robots.ox.ac.uk/~vgg/data/ 上 公布 有 很 多 的 
数据 集 。 在 本 书 中 ， 我 们 使 用 了 一 些 多 视图 的 数据 集 ， 例 如 “Merton1 、 “Model 


House”、“dinosaur” 和 “corridor” 序 列 ， 这 些 数 据 ( 某 些 包括 摄像 机 和 矩阵 和 点 跟 
be) 下 载 地 址 为 http://www.robots.ox.ac.uk/~vgg/data/data-mview.html。 


B.4 肯塔基 大 学 识别 基准 图 像 


肯塔基 大 学 基准 图 像 集 ， 亦 称 “ukbench” 集 ， 是 一 个 包含 25$0 组 图 片 的 图 像 集 
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该 数据 集中 ， 每 组 图 像 共 4 幅 ， 包 仿 同 一 对 象 或 同一 场景 下 的 不 同 视角 。 这 是 一 个 
测试 目标 识别 和 图 像 检 索 算 法 一 个 很 好 的 图 像 集 。 数 据 集 可 以 在 http://www.vis.uky. 
edu/~stewe/ukbench/ 下 载 (全 套 约 1.5 GB), ， 详 见 文献 [23]。 


在 本 书 中 ， 我 们 使 用 一 个 较 小 的 子 集 ， 只 含有 前 1000 幅 图 片 。 
B.5 其 他 


B.5.1 Prague Texture Segmentation Datagenerator 与 基准 
该 数据 集 在 分 割 那 一 草 里 面 用 到 过 ， 可 以 生成 许多 不 同类 型 的 纹理 分 割 图 像 ， 参 见 


http://mosaic.utia.cas.cz/index.php, 








B.5.2 ”微软 剑桥 研究 院 Grab Cut 数 据 集 

最 初 用 于 Grab Cu 的 论文 [27]， 该 图 像 集 提供 带 有 用 户 注 释 的 分 割 图 像 。 该 数 
据 集 和 一 些 论 文 参 见 http://research.microsoft.com/en-us/um/cambridge/projects/ 
visionimagevideoediting/segmentation/grabcut.html。 数 据 集 中 的 原始 图 像 现在 是 伯 克 
FI a HI Ar JE E (http://www.eecs.berkeley.edu/Research/Projects/CS/vision/ grouping/ 
segbench/) 中 的 一 部 分 。 


B.5.3 Caltech 101 


这 是 一 个 经 典 的 数据 集 ， 其 中 包含 101 类 照片 ， 可 以 用 来 测试 目标 识别 算法 ， 参 见 
http://www.vision.caltech.edu/Image_Datasets/Caltech101/, 


B.5.4 静态 手势 数据 库 


这 个 来 目 Sebastien Marcel 的 数据 集 与 其 他 几 个 手势 数据 集 可 在 http://www.idiap.ch/ 


resource/gestures/ 下 载 。 


B.5.5 Middlebury Stereo 数 据 集 


这 些 数 据 集 用 于 基准 立体 算法 ， 可 在 http://vision.middlebury.edu/stereo/data/ 人 下载。 
每 个 立体 像 对 都 带 有 真实 深度 图 像 来 方便 比较 结果 。 
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Mi SR C 


图 片 来 源 





在 本 书 中 ， 我 们 从 Web 服务 充分 享用 了 公开 可 用 的 数据 和 图 像 ， 详 见 附录 BAR HY 
感谢 这 些 数据 集 背后 研究 人 员 的 页 献 。 


一 些 反 复出 现 的 图 像 例子 属于 作者 自己 。 你 可 以 在 创作 共用 署名 3.0 许 可 证 (CC 
3.0，http://creativecommons.org/licenses/by/3.0/) 下 免费 使 用 这 些 图 片 ， 如 引用 本 
Ds 

这 些 图 片 是 : 


。 用 于 本 书 几 乎 所 有 例子 的 帝国 大 厦 图 像 ; 

。 在 图 1-7 中 的 低 对 比 度 图 像 ，; 

。 用 于 图 2-2、 图 2-5、 图 2-6 和 图 2-7 的 特征 匹配 例子 ; 

。 用 于 图 9-6、 图 10-1 和 图 10-2 的 渔 人 码头 标志 ; 

。 用 于 图 6-4 和 图 9-6 的 山顶 小 男孩 ; 

。 在 图 4-3 中 用 于 校准 的 书 的 图 像 ; 

。 用 于 图 4-4、 图 4-5 和 图 4-6 中 的 O'Reilly 开源 书 的 两 幅 图 片 。 


C.1 来 自 Flickr 的 图 像 


我 们 在 创作 共同 署名 2.0 通用 许可 证 (CC2.0) 使 用 了 一 些 来 自 Flickr 的 图 像 (http:// 
creativecommons.org/licenses/by/2.0/deed.en) 下 ， 非 党 感谢 那些 摄影 师 的 贡献 。 


RA Flickr 的 图 像 〈 例 子 中 使 用 的 名 称 ， 不 是 原始 文件 名 ) : 
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e billboard_for_rent.jpg, X Á @striatic, http://flickr.com/photos/striatic/21671910/, 
用 于 图 3-2; 

e blank_billboard.jpg， 来 H @mediaboytodd, http://flickr.com/photos/23883605 @ 
N06/2317982570/， 用 于 图 3-3; 

e beatles.jpg， 来 目 @oddsock，http://flickr.com/photos/oddsock/82535061/， 用 于 图 
3-2 和 图 3-3; 

e turningtorsol.jpg， 来 目 @rutgerblom, http://www.flickr.com/photos/rutgerblom/ 
2873185336/， 用 于 图 3-5; 

e sunset_tree.jpg, XÁ @jpck, http://www.flickr.com/photos/jpck/3344929385/, A 
于 图 3-5. 


C.2 ”其 他 图 像 


。 用 于 图 3-6、 图 3-7 和 图 3-8 的 人 脸 图 像 是 由 J. K. Keller 提供 的 。 有 眼睛 和 嘴巴 的 
注释 是 作者 加 的 。 

。 用 于 图 3-9、 图 3-11 和 图 3-12 的 隆 德 大 学 建筑 图 片 来 自 隆 德 大 学 数学 成 像 组 的 
一 个 数据 集 。 摄 影 师 很 可 能 是 Magnus Oskarsson, 

。 用 于 图 4-6 的 玩具 飞机 三 维 模型 来 自 Gilles Tran (署名 创作 共同 许可 证 )。 

。 用 于 图 5-7 和 图 5-8 的 恶魔 图 像 由 Carl Olsson 提供 。 

。 用 于 图 1-8 .图 6-2 .图 6-3 .图 6-7 和 图 6-8 的 字体 数据 集 由 马丁 Martin Solli 提供 。 

。 用 于 图 8-6、 图 8-7 和 图 8-8 的 数 独 图 像 由 Martin Byrod 提供 。 


C.3 插图 


本 书 图 5-1 中 对 极 几 何 的 解释 来 目 Klas Josephson 的 图 解 ， 并 在 本 书 中 稍 作 了 修改 。 
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